論文の概要: From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models
- arxiv url: http://arxiv.org/abs/2210.05230v1
- Date: Tue, 11 Oct 2022 07:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:10:54.802835
- Title: From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models
- Title(参考訳): 模倣から統合へ:事前学習言語モデルの知識統合
- Authors: Lei Li, Yankai Lin, Xuancheng Ren, Guangxiang Zhao, Peng Li, Jie Zhou,
Xu Sun
- Abstract要約: 本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
- 参考スコア(独自算出の注目度): 55.137869702763375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Investigating better ways to reuse the released pre-trained language models
(PLMs) can significantly reduce the computational cost and the potential
environmental side-effects. This paper explores a novel PLM reuse paradigm,
Knowledge Integration (KI). Without human annotations available, KI aims to
merge the knowledge from different teacher-PLMs, each of which specializes in a
different classification problem, into a versatile student model. To achieve
this, we first derive the correlation between virtual golden supervision and
teacher predictions. We then design a Model Uncertainty--aware Knowledge
Integration (MUKI) framework to recover the golden supervision for the student.
Specifically, MUKI adopts Monte-Carlo Dropout to estimate model uncertainty for
the supervision integration. An instance-wise re-weighting mechanism based on
the margin of uncertainty scores is further incorporated, to deal with the
potential conflicting supervision from teachers. Experimental results
demonstrate that MUKI achieves substantial improvements over baselines on
benchmark datasets. Further analysis shows that MUKI can generalize well for
merging teacher models with heterogeneous architectures, and even teachers
major in cross-lingual datasets.
- Abstract(参考訳): リリース済みの事前学習言語モデル(PLM)の再利用方法を検討することで、計算コストと潜在的な環境サイドエフェクトを大幅に削減することができる。
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
ヒューマンアノテーションが利用できないkiは、異なる分類問題に特化した異なる教師plmからの知識を、汎用的な学生モデルに統合することを目指している。
これを実現するために,まず仮想黄金監督と教師予測の相関関係を導出する。
次に,モデル不確実性-認識知識統合(muki)フレームワークを設計し,学生の黄金の監督を回復する。
特に、mukiはモンテカルロ・ドロップアウトを採用し、監督統合のモデルの不確かさを推定している。
不確実性スコアのマージンに基づくインスタンス単位での再重み付け機構がさらに組み込まれ、教師からの潜在的な矛盾する監督に対処する。
実験の結果,mukiはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
さらに分析した結果,MUKIは教師モデルと異種アーキテクチャを融合する上で,さらに言語間データセットを専攻する教師にも有効であることがわかった。
関連論文リスト
- Verifying Machine Unlearning with Explainable AI [46.7583989202789]
港の前面監視における機械学習(MU)の検証における説明可能なAI(XAI)の有効性について検討する。
私たちの概念実証は、従来のメトリクスを超えて拡張されたMUの革新的な検証ステップとして属性機能を導入しています。
本稿では,これらの手法の有効性を評価するために,熱マップカバレッジ(HC)とアテンションシフト(AS)の2つの新しいXAI指標を提案する。
論文 参考訳(メタデータ) (2024-11-20T13:57:32Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Enhancing Fairness and Performance in Machine Learning Models: A Multi-Task Learning Approach with Monte-Carlo Dropout and Pareto Optimality [1.5498930424110338]
本研究では,モデル不確実性を利用した機械学習におけるバイアス軽減手法を提案する。
提案手法では,モンテカルロ・ドロップアウト(MC)と組み合わせたマルチタスク学習(MTL)フレームワークを用いて,保護ラベルに関連する予測の不確実性を評価・緩和する。
論文 参考訳(メタデータ) (2024-04-12T04:17:50Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - A Bayesian Unification of Self-Supervised Clustering and Energy-Based
Models [11.007541337967027]
我々は、最先端の自己教師型学習目標のベイズ分析を行う。
目的関数が既存の自己教師型学習戦略より優れていることを示す。
また、GEDIをニューロシンボリックな枠組みに統合できることを実証した。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language
Models [37.88287077119201]
PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation(KA)を提案する。
KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。
実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2021-12-14T12:26:24Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。