論文の概要: Respecting Self-Uncertainty in On-Policy Self-Distillation for Efficient LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.13255v1
- Date: Wed, 13 May 2026 09:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.950536
- Title: Respecting Self-Uncertainty in On-Policy Self-Distillation for Efficient LLM Reasoning
- Title(参考訳): 効率的なLDM推論のためのオンライン自己蒸留における自己不確かさの検討
- Authors: Junlong Ke, Zichen Wen, Weijia Li, Conghui He, Linfeng Zhang,
- Abstract要約: オンライン自己蒸留は、教師が密集したトークンレベルの監督を提供する間、独自のロールアウトで推論モデルを訓練する。
トークンレベルの更新を3つの信号で統一するEGRSD(Entropy-Guided Reinforced Self-Distillation)を提案する。
CL-EGRSDは、持続する高エントロピースパンと過渡的な高エントロピー位置を区別する因果関係の変種である。
- 参考スコア(独自算出の注目度): 43.9367673156851
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: On-policy self-distillation trains a reasoning model on its own rollouts while a teacher, often the same model conditioned on privileged context, provides dense token-level supervision. Existing objectives typically weight the teacher's token-level signal uniformly across a chain-of-thought sequence, despite substantial variation in the entropy of the teacher's predictive distribution. We propose EGRSD (Entropy-Guided Reinforced Self-Distillation), which unifies token-level updates through three signals: a reward-grounded direction, a teacher-student likelihood-ratio magnitude, and the proposed teacher-entropy confidence gate that down-weights high-entropy token positions while maintaining a nonzero lower bound on every token weight. We further introduce CL-EGRSD, a causal-lookahead variant that distinguishes sustained high-entropy spans from transient high-entropy positions whose following context rapidly becomes low entropy. Experiments with Qwen3-4B and Qwen3-8B in thinking mode show that EGRSD and CL-EGRSD advance the accuracy-length frontier among the compared trainable methods.
- Abstract(参考訳): オンラインの自己蒸留は独自のロールアウトで推論モデルを訓練し、教師は特権的文脈で条件付けられた同じモデルで、密集したトークンレベルの監督を提供する。
既存の目的は通常、教師の予測分布のエントロピーにかなりの変化があるにもかかわらず、教師のトークンレベルの信号を一様に重み付けする。
本稿では,EGRSD(Entropy-Guided Reinforced Self-Distillation)を提案し,トークンレベルの更新を3つの信号で統一する。
CL-EGRSDは, 持続する高エントロピー領域と, 後続の文脈が急速に低エントロピーとなる過渡的な高エントロピー位置を区別する。
シンキングモードにおけるQwen3-4BとQwen3-8Bの実験により、EGRSDとCL-EGRSDは、比較訓練可能な手法の中で精度の高いフロンティアを前進させることが示された。
関連論文リスト
- Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning [19.98950359294245]
本研究は,教師の特権分布を自己の自給自足軌道に沿って蒸留することにより,言語モデルによる推論能力の向上を図ることを目的とする。
OPSDの性能向上にもかかわらず,教師と生徒の反応のミスマッチがよく見過ごされがちである。
論文 参考訳(メタデータ) (2026-05-12T17:00:53Z) - Entropy Polarity in Reinforcement Fine-Tuning: Direction, Asymmetry, and Control [77.8471519867791]
実験的に、エントロピー極性はエントロピーの変化を確実に予測することを示した。
本稿では、両極性分岐を保護し、有利な再重み付けによるエントロピー制御を実装するPAPO(Polarity-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-05-12T08:47:05Z) - PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners [9.324642081509756]
大規模言語モデル(LLM)推論には、モデル自身のテスト時間状態とトークンレベルの情報の両方に整合した監視が必要である。
近年の独占型自己蒸留は,同じモデルによる学生のロールアウトを,検証済みのソリューションコンテキスト下で評価することによって中等地を探索している。
ロールアウト-参照重なりに応じて検証された解を隠蔽し、エントロピー-ミスマッチトークンのスパースセットに小さなエネルギー空間を適用したPAINTを提案する。
論文 参考訳(メタデータ) (2026-04-29T11:56:07Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting [17.504616835765617]
両経路適応型学習フレームワークを提案する。
SCOPEは、Avg@32で11.42%、Pass@32で7.30%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-04-12T15:26:14Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings [7.554296968064274]
検証リワード(RLVR)を用いた強化学習のための階層型ポリシー最適化(HAPO)を提案する。
HAPOは、障害時に教師のデモンストレーションに最適化を選択的にアンカーする、後ろ向きのメカニズムを採用している。
HAPOは,政策改善に伴う教師の信号のアニールを自然に行うことで,非バイアスのオン・ポリティクス勾配を回復する。
論文 参考訳(メタデータ) (2026-03-11T21:33:41Z) - Entropy-Aware On-Policy Distillation of Language Models [36.60992451188347]
エントロピーを意識したオン・ポリシィ蒸留について紹介する。
我々のキーとなる考え方は、教師のエントロピーが高い場合、標準逆KL目標を前方KLに増強することである。
モデム探索精度とモデム探索精度のバランスを保ち、モデムの訓練効率を犠牲にしない。
論文 参考訳(メタデータ) (2026-03-07T07:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。