論文の概要: $\mathcal{X}$-KD: General Experiential Knowledge Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2602.12674v1
- Date: Fri, 13 Feb 2026 07:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.874905
- Title: $\mathcal{X}$-KD: General Experiential Knowledge Distillation for Large Language Models
- Title(参考訳): $\mathcal{X}$-KD:大規模言語モデルの一般的な経験的知識蒸留
- Authors: Yuang Cai, Yuyu Yuan,
- Abstract要約: 経験的知識蒸留 (mathcalX$-KD) は、教師の学習環境において、生徒のモデルを学習することを可能にする。
$mathcalX$-KDは、教師付き学習フレームワークに従い、シーケンスレベルと発散に基づく蒸留法の両方に適用する。
- 参考スコア(独自算出の注目度): 5.8010446129208155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) for Large Language Models (LLMs) has become increasingly important as models grow in size and complexity. While existing distillation approaches focus on imitating teacher behavior, they often overlook the original learning environment that shaped the teacher's knowledge. Inspired by the experiential learning theory and inverse reinforcement learning, we propose Experiential Knowledge Distillation ($\mathcal{X}$-KD), a novel and general framework that enables student models to learn in the teacher's original learning environment. $\mathcal{X}$-KD adopts the Approximated Variational Reward Imitation Learning (AVRIL) framework to jointly model the teacher's original reward function and perform policy distillation, encouraging consistency between the student policy and the original reward function. Our derivation demonstrates that $\mathcal{X}$-KD follows the supervised learning framework and applies to both sequence-level and divergence-based distillation methods, underlining the simplicity and flexibility of our approach. Empirical results show that $\mathcal{X}$-KD outperforms the generalized KD and MiniLLM baselines on abstractive summarization, machine translation, and arithmetic reasoning tasks. Additionally, $\mathcal{X}$-KD achieves better performance-diversity trade-off and data efficiency than baseline KD approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)のための知識蒸留(KD)は、モデルのサイズと複雑さが大きくなるにつれてますます重要になっている。
既存の蒸留法は教師の行動を真似ることに重点を置いているが、教師の知識を形作る本来の学習環境を見落としていることが多い。
経験的学習理論と逆強化学習に着想を得て,実験的知識蒸留(\mathcal{X}$-KD)を提案する。
$\mathcal{X}$-KDは、教師の本来の報酬関数を共同でモデル化し、ポリシー蒸留を行い、学生のポリシーと元の報酬関数との一貫性を促進するために、近似変分報酬学習(AVRIL)フレームワークを採用する。
我々の導出は、$\mathcal{X}$-KDが教師付き学習フレームワークに従っており、シーケンスレベルと発散に基づく蒸留法の両方に適用され、我々のアプローチの単純さと柔軟性の基盤となっていることを証明している。
経験的な結果から、$\mathcal{X}$-KDは、抽象的な要約、機械翻訳、算術的推論タスクに基づく一般化KDとMiniLLMのベースラインを上回ります。
さらに$\mathcal{X}$-KDは、ベースラインのKDアプローチよりも優れたパフォーマンスと多様性のトレードオフとデータ効率を実現する。
関連論文リスト
- Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation [57.524909883706556]
オンライン蒸留(OPD)は、学生のパフォーマンス向上に強い経験的利益をもたらしている。
この研究は、フレキシブルな参照モデルと報酬項の相対重みをKL正規化に対して制御する報酬スケーリング係数を導入している。
特に、同じ学生モデルにドメイン固有RLを適用して得られた異なるドメインエキスパートの知識をマージする環境では、ExOPDは生徒が教師のパフォーマンス境界を越えられるようにします。
論文 参考訳(メタデータ) (2026-02-12T16:14:29Z) - Enhancing Reasoning Capabilities in SLMs with Reward Guided Dataset Distillation [0.0]
本稿では,報酬誘導型データセット蒸留フレームワークAdvDistillを提案する。
我々は,教師からの複数の世代(応答)を各プロンプトに利用し,ルールベースの検証に基づいて報酬を割り当てる。
これらの様々な、通常は分散された報酬は、学生モデルを訓練する際の重みとなる。
論文 参考訳(メタデータ) (2025-06-25T20:07:47Z) - Revisiting Knowledge Distillation for Autoregressive Language Models [88.80146574509195]
知識蒸留(KD)を改善するための簡易かつ効果的な適応型教育法(ATKD)を提案する。
ATKDの中核は、ロート学習を減らし、教育をより多様で柔軟なものにすることだ。
8つのLMタスクの実験は、ATKDの助けを借りて、様々なベースラインのKD手法が一貫した、重要なパフォーマンス向上を達成することを示した。
論文 参考訳(メタデータ) (2024-02-19T07:01:10Z) - EA-KD: Entropy-based Adaptive Knowledge Distillation [7.545437055775005]
エントロピーに基づく適応的知識蒸留(EA-KD)は、貴重なサンプルからの学習を優先するプラグアンドプレイのKD手法である。
EA-KDは一貫して性能を向上し、非許容計算コストで最先端の計算結果を達成する。
論文 参考訳(メタデータ) (2023-11-22T08:34:33Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。