Fugu-MT 論文翻訳(概要): From Mimicking to Integrating: Knowledge Integration for Pre-Trained Language Models

論文の概要: From Mimicking to Integrating: Knowledge Integration for Pre-Trained Language Models

arxiv url: http://arxiv.org/abs/2210.05230v1
Date: Tue, 11 Oct 2022 07:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 14:10:54.802835
Title: From Mimicking to Integrating: Knowledge Integration for Pre-Trained Language Models
Title（参考訳）: 模倣から統合へ:事前学習言語モデルの知識統合
Authors: Lei Li, Yankai Lin, Xuancheng Ren, Guangxiang Zhao, Peng Li, Jie Zhou, Xu Sun
Abstract要約: 本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。 KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
参考スコア（独自算出の注目度）: 55.137869702763375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Investigating better ways to reuse the released pre-trained language models (PLMs) can significantly reduce the computational cost and the potential environmental side-effects. This paper explores a novel PLM reuse paradigm, Knowledge Integration (KI). Without human annotations available, KI aims to merge the knowledge from different teacher-PLMs, each of which specializes in a different classification problem, into a versatile student model. To achieve this, we first derive the correlation between virtual golden supervision and teacher predictions. We then design a Model Uncertainty--aware Knowledge Integration (MUKI) framework to recover the golden supervision for the student. Specifically, MUKI adopts Monte-Carlo Dropout to estimate model uncertainty for the supervision integration. An instance-wise re-weighting mechanism based on the margin of uncertainty scores is further incorporated, to deal with the potential conflicting supervision from teachers. Experimental results demonstrate that MUKI achieves substantial improvements over baselines on benchmark datasets. Further analysis shows that MUKI can generalize well for merging teacher models with heterogeneous architectures, and even teachers major in cross-lingual datasets.
Abstract（参考訳）: リリース済みの事前学習言語モデル(PLM)の再利用方法を検討することで、計算コストと潜在的な環境サイドエフェクトを大幅に削減することができる。本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。ヒューマンアノテーションが利用できないkiは、異なる分類問題に特化した異なる教師plmからの知識を、汎用的な学生モデルに統合することを目指している。これを実現するために,まず仮想黄金監督と教師予測の相関関係を導出する。次に,モデル不確実性-認識知識統合(muki)フレームワークを設計し,学生の黄金の監督を回復する。特に、mukiはモンテカルロ・ドロップアウトを採用し、監督統合のモデルの不確かさを推定している。不確実性スコアのマージンに基づくインスタンス単位での再重み付け機構がさらに組み込まれ、教師からの潜在的な矛盾する監督に対処する。実験の結果,mukiはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。さらに分析した結果,MUKIは教師モデルと異種アーキテクチャを融合する上で,さらに言語間データセットを専攻する教師にも有効であることがわかった。

関連論文リスト

From Semantics, Scene to Instance-awareness: Distilling Foundation Model for Open-vocabulary Situation Recognition [14.16399307533106]
マルチモーダル大言語モデル(MLLM)は、強いゼロショット能力を示すが、複雑な接地状況認識(GSR)と競合する。我々は,教師MLLMから小さなGSRモデルへの知識の伝達を利用して,その一般化とゼロショット能力を向上させる。基礎モデルから豊富なマルチモーダル知識を蒸留する新しいフレームワークであるMIPD(Multimodal Interactive Prompt Distillation)を提案する。
論文参考訳（メタデータ） (2025-07-19T16:29:02Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Verifying Machine Unlearning with Explainable AI [46.7583989202789]
港の前面監視における機械学習(MU)の検証における説明可能なAI(XAI)の有効性について検討する。私たちの概念実証は、従来のメトリクスを超えて拡張されたMUの革新的な検証ステップとして属性機能を導入しています。本稿では,これらの手法の有効性を評価するために,熱マップカバレッジ(HC)とアテンションシフト(AS)の2つの新しいXAI指標を提案する。
論文参考訳（メタデータ） (2024-11-20T13:57:32Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Erasing Conceptual Knowledge from Language Models [24.63143961814566]
言語記憶の消去(英語: Erasure of Language Memory, ELM)とは、イントロスペクティブな分類器によって定義された分布をマッチングする原理に基づいて構築された概念レベルのアンラーニングのアプローチである。 ELMはこのフレームワークを適用して、コンセプト固有のコンテンツの生成確率を低下させるローランクな更新をターゲットとする。 ELMのバイオセキュリティ、サイバーセキュリティ、および文学ドメイン消去タスクに対する効果を実証する。
論文参考訳（メタデータ） (2024-10-03T17:59:30Z)
Enhancing Fairness and Performance in Machine Learning Models: A Multi-Task Learning Approach with Monte-Carlo Dropout and Pareto Optimality [1.5498930424110338]
本研究では,モデル不確実性を利用した機械学習におけるバイアス軽減手法を提案する。提案手法では,モンテカルロ・ドロップアウト(MC)と組み合わせたマルチタスク学習(MTL)フレームワークを用いて,保護ラベルに関連する予測の不確実性を評価・緩和する。
論文参考訳（メタデータ） (2024-04-12T04:17:50Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)
A Bayesian Unification of Self-Supervised Clustering and Energy-Based Models [11.007541337967027]
我々は、最先端の自己教師型学習目標のベイズ分析を行う。目的関数が既存の自己教師型学習戦略より優れていることを示す。また、GEDIをニューロシンボリックな枠組みに統合できることを実証した。
論文参考訳（メタデータ） (2023-12-30T04:46:16Z)
EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95～97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文参考訳（メタデータ） (2023-01-27T22:04:37Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Model Uncertainty-Aware Knowledge Amalgamation for Pre-Trained Language Models [37.88287077119201]
PLMのための新しいモデル再利用パラダイムであるKnowledge Amalgamation(KA)を提案する。 KAは、人間のアノテーションを使用せずに、異なる分類問題に特化している異なる教師-PLMの知識を、汎用的な学生モデルにマージすることを目的としている。実験の結果,MUKAはベンチマークデータセットのベースラインよりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2021-12-14T12:26:24Z)
Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。 GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文参考訳（メタデータ） (2021-01-06T17:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。