論文の概要: From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models
- arxiv url: http://arxiv.org/abs/2210.05230v1
- Date: Tue, 11 Oct 2022 07:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:10:54.802835
- Title: From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models
- Title(参考訳): 模倣から統合へ:事前学習言語モデルの知識統合
- Authors: Lei Li, Yankai Lin, Xuancheng Ren, Guangxiang Zhao, Peng Li, Jie Zhou,
Xu Sun
- Abstract要約: 本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
- 参考スコア(独自算出の注目度): 55.137869702763375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Investigating better ways to reuse the released pre-trained language models
(PLMs) can significantly reduce the computational cost and the potential
environmental side-effects. This paper explores a novel PLM reuse paradigm,
Knowledge Integration (KI). Without human annotations available, KI aims to
merge the knowledge from different teacher-PLMs, each of which specializes in a
different classification problem, into a versatile student model. To achieve
this, we first derive the correlation between virtual golden supervision and
teacher predictions. We then design a Model Uncertainty--aware Knowledge
Integration (MUKI) framework to recover the golden supervision for the student.
Specifically, MUKI adopts Monte-Carlo Dropout to estimate model uncertainty for
the supervision integration. An instance-wise re-weighting mechanism based on
the margin of uncertainty scores is further incorporated, to deal with the
potential conflicting supervision from teachers. Experimental results
demonstrate that MUKI achieves substantial improvements over baselines on
benchmark datasets. Further analysis shows that MUKI can generalize well for
merging teacher models with heterogeneous architectures, and even teachers
major in cross-lingual datasets.
- Abstract(参考訳): リリース済みの事前学習言語モデル(PLM)の再利用方法を検討することで、計算コストと潜在的な環境サイドエフェクトを大幅に削減することができる。
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
ヒューマンアノテーションが利用できないkiは、異なる分類問題に特化した異なる教師plmからの知識を、汎用的な学生モデルに統合することを目指している。
これを実現するために,まず仮想黄金監督と教師予測の相関関係を導出する。
次に,モデル不確実性-認識知識統合(muki)フレームワークを設計し,学生の黄金の監督を回復する。
特に、mukiはモンテカルロ・ドロップアウトを採用し、監督統合のモデルの不確かさを推定している。
不確実性スコアのマージンに基づくインスタンス単位での再重み付け機構がさらに組み込まれ、教師からの潜在的な矛盾する監督に対処する。
実験の結果,mukiはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
さらに分析した結果,MUKIは教師モデルと異種アーキテクチャを融合する上で,さらに言語間データセットを専攻する教師にも有効であることがわかった。
関連論文リスト
- A Bayesian Unification of Self-Supervised Clustering and Energy-Based
Models [11.007541337967027]
我々は、最先端の自己教師型学習目標のベイズ分析を行う。
目的関数が既存の自己教師型学習戦略より優れていることを示す。
また、GEDIをニューロシンボリックな枠組みに統合できることを実証した。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - ComplAI: Theory of A Unified Framework for Multi-factor Assessment of
Black-Box Supervised Machine Learning Models [6.279863832853343]
ComplAIは、説明可能性、堅牢性、パフォーマンス、公正性、モデル行動を有効にし、観察し、分析し、定量化するユニークなフレームワークである。
教師付き機械学習モデルの評価は、正しい予測を行う能力だけでなく、全体的な責任の観点から行う。
論文 参考訳(メタデータ) (2022-12-30T08:48:19Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z) - Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language
Models [37.88287077119201]
PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation(KA)を提案する。
KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。
実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2021-12-14T12:26:24Z) - Lifelong Infinite Mixture Model Based on Knowledge-Driven Dirichlet
Process [15.350366047108103]
生涯学習における最近の研究成果は、タスクの増加に対応するために、モデルの混合を成長させることが提案されている。
本研究では,データの確率的表現間の差分距離に基づいてリスク境界を導出することにより,生涯学習モデルの理論的解析を行う。
理論解析に着想を得て, 生涯無限混合モデル (LIMix) と呼ばれる新しい生涯学習手法を導入する。
論文 参考訳(メタデータ) (2021-08-25T21:06:20Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。