論文の概要: On-Policy Context Distillation for Language Models
- arxiv url: http://arxiv.org/abs/2602.12275v1
- Date: Thu, 12 Feb 2026 18:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.998977
- Title: On-Policy Context Distillation for Language Models
- Title(参考訳): 言語モデルのためのオンライン文脈蒸留
- Authors: Tianzhu Ye, Li Dong, Xun Wu, Shaohan Huang, Furu Wei,
- Abstract要約: 本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。
実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
- 参考スコア(独自算出の注目度): 92.82835176360864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context distillation enables language models to internalize in-context knowledge into their parameters. In our work, we propose On-Policy Context Distillation (OPCD), a framework that bridges on-policy distillation with context distillation by training a student model on its own generated trajectories while minimizing reverse Kullback-Leibler divergence against a context-conditioned teacher. We demonstrate the effectiveness of OPCD on two important applications: experiential knowledge distillation, where models extract and consolidate transferable knowledge from their historical solution traces, and system prompt distillation, where models internalize beneficial behaviors encoded in optimized prompts. Across mathematical reasoning, text-based games, and domain-specific tasks, OPCD consistently outperforms baseline methods, achieving higher task accuracy while better preserving out-of-distribution capabilities. We further show that OPCD enables effective cross-size distillation, where smaller student models can internalize experiential knowledge from larger teachers.
- Abstract(参考訳): 文脈蒸留は、言語モデルがコンテキスト内知識をパラメータに内部化することを可能にする。
本研究は,教師に対して逆のKullback-Leibler発散を最小限に抑えつつ,自作の軌道上で学生モデルを訓練することにより,オンライン蒸留と文脈蒸留を橋渡しするフレームワークであるOn-Policy Context Distillation (OPCD)を提案する。
実験的知識蒸留では, モデルが過去の解のトレースから伝達可能な知識を抽出・統合し, システムプロンプト蒸留ではモデルが最適化されたプロンプトに符号化された有益な振る舞いを内部化する。
数学的な推論、テキストベースのゲーム、ドメイン固有のタスクなどを通じて、OPCDはベースラインメソッドを一貫して上回り、より高いタスク精度を達成し、アウト・オブ・ディストリビューション能力の保存性を向上する。
さらに、OPCDは、より小規模な学生モデルで、より大規模な教師による経験的知識を内包できる、効果的なクロスサイズ蒸留を可能にしていることを示す。
関連論文リスト
- Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models [44.041109669153506]
On-Policy Self-Distillation (OPSD) は、教師と学生の両方がひとつのモデルで、異なるコンテキストを条件付けして機能するフレームワークである。
複数の数学的推論ベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2026-01-26T17:56:50Z) - Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability [3.224880576815583]
大規模言語モデルの高い計算とストレージ要求は、リソース制約のある環境への展開を制限する。
これまでの研究では, 学習データの生成と学生モデルの訓練のための蒸留法がいくつか導入されている。
その関連性にも拘わらず, 現状蒸留法がモデル性能および説明可能性に与える影響については, 十分に検討されていない。
論文 参考訳(メタデータ) (2025-04-22T17:32:48Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。