論文の概要: Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.18734v1
- Date: Mon, 26 Jan 2026 17:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.995133
- Title: Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
- Title(参考訳): 自己蒸留型共振器:大規模言語モデルのためのオンライン自己蒸留
- Authors: Siyan Zhao, Zhihui Xie, Mengchen Liu, Jing Huang, Guan Pang, Feiyu Chen, Aditya Grover,
- Abstract要約: On-Policy Self-Distillation (OPSD) は、教師と学生の両方がひとつのモデルで、異なるコンテキストを条件付けして機能するフレームワークである。
複数の数学的推論ベンチマークにおいて,本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 44.041109669153506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation improves large language model (LLM) reasoning by compressing the knowledge of a teacher LLM to train smaller LLMs. On-policy distillation advances this approach by having the student sample its own trajectories while a teacher LLM provides dense token-level supervision, addressing the distribution mismatch between training and inference in off-policy distillation methods. However, on-policy distillation typically requires a separate, often larger, teacher LLM and does not explicitly leverage ground-truth solutions available in reasoning datasets. Inspired by the intuition that a sufficiently capable LLM can rationalize external privileged reasoning traces and teach its weaker self (i.e., the version without access to privileged information), we introduce On-Policy Self-Distillation (OPSD), a framework where a single model acts as both teacher and student by conditioning on different contexts. The teacher policy conditions on privileged information (e.g., verified reasoning traces) while the student policy sees only the question; training minimizes the per-token divergence between these distributions over the student's own rollouts. We demonstrate the efficacy of our method on multiple mathematical reasoning benchmarks, achieving 4-8x token efficiency compared to reinforcement learning methods such as GRPO and superior performance over off-policy distillation methods.
- Abstract(参考訳): 知識蒸留は、教師のLLMの知識を圧縮し、より小さなLLMを訓練することで、大きな言語モデル(LLM)推論を改善する。
オンライン蒸留は、教師のLLMが密集したトークンレベルの監督を提供しながら、学生に独自の軌跡をサンプリングさせることによってこのアプローチを前進させる。
しかし、オンライン蒸留は通常、個別の、しばしば大きい、教師のLSMを必要とし、推論データセットで利用できる地道的な解決策を明示的に活用しない。
十分な能力を持つLLMが外部特権的推論トレースを合理化し、その弱い自己(すなわち特権情報にアクセスできないバージョン)を教えるという直感から着想を得て、単一モデルが異なる文脈で教師と学生の両方として機能するフレームワークであるOn-Policy Self-Distillation(OPSD)を導入する。
教師の政策条件は、特権情報(例えば、検証された推論の痕跡)に基づいており、学生の政策は問題のみを認識している。
提案手法の有効性を,GRPOなどの強化学習法と比較して4~8倍のトークン効率を実現し,非政治蒸留法よりも優れた性能を示した。
関連論文リスト
- VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation [67.98620973023709]
VOLDは、テキストのみの教師モデルからVLMの学生モデルに推論機能を移行するためのフレームワークである。
VOLDはベースラインモデルよりも大幅に優れ,最先端技術よりもマージンが向上していることを示す。
論文 参考訳(メタデータ) (2025-10-27T16:32:12Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)アプローチによる新しいフォールト・アウェア・ディストイレーション(Fact-Aware DistIllation)を導入する。
本手法は,教師から合理性を得るのではなく,教師に生徒の過ちを特定・説明するよう求めている。
本手法は,教師が正しい推理を行う確率を低くする。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。