論文の概要: OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.12400v1
- Date: Tue, 12 May 2026 17:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.038856
- Title: OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning
- Title(参考訳): OGLS-SD:LPM推論のための出力誘導ロジットステアリングによるオンライン自己蒸留
- Authors: Yuxiao Yang, Xiaoyun Wang, Weitong Zhang,
- Abstract要約: 本研究は,教師の特権分布を自己の自給自足軌道に沿って蒸留することにより,言語モデルによる推論能力の向上を図ることを目的とする。
OPSDの性能向上にもかかわらず,教師と生徒の反応のミスマッチがよく見過ごされがちである。
- 参考スコア(独自算出の注目度): 19.98950359294245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study {on-policy self-distillation} (OPSD), where a language model improves its reasoning ability by distilling privileged teacher distributions along its own on-policy trajectories. Despite the performance gains of OPSD, we identify a common but often overlooked mismatch between teacher and student responses: self-reflected teacher responses can be shifted by reflection-induced bias and response templates, leading to miscalibrated token-level supervision. To mitigate this issue, we propose \methodname, an outcome-guided logit-steering framework that leverages verifiable outcome rewards to contrast successful and failed on-policy trajectories and calibrate teacher logits. By combining outcome-level correctness with dense token-level guidance through logit steering, \methodname stabilizes self-distillation and improves reasoning performance over standard OPSD and other variants across diverse benchmarks.
- Abstract(参考訳): 本研究では, 言語モデルを用いて, 教師の特権分布を自己のオンライン軌道に沿って蒸留することにより, 推論能力を向上させることを目的とした<on-policy self-distillation} (OPSD) について検討する。
OPSDの性能向上にもかかわらず、教師と生徒の反応はよく見過ごされがちなミスマッチを識別する。
この問題を軽減するために,検証結果の報奨を生かした結果誘導型ロジットステアリングフレームワークである‘methodname’を提案する。
結果レベルの正しさとロジットステアリングによる高密度トークンレベルのガイダンスを組み合わせることで、Shamethodnameは自己蒸留を安定化し、様々なベンチマークで標準OPSDや他の変種よりも推論性能を向上させる。
関連論文リスト
- On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization [18.027254451537342]
既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
論文 参考訳(メタデータ) (2026-05-06T15:31:50Z) - The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting [17.504616835765617]
両経路適応型学習フレームワークを提案する。
SCOPEは、Avg@32で11.42%、Pass@32で7.30%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-04-12T15:26:14Z) - Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval [26.186599286240362]
スコアスペクトル全体を均一にカバーするStratified Smpling戦略を提案する。
実験により、教師のスコアの分散とエントロピーを保存するStratified Samplingが、堅牢なベースラインとして機能することが確認された。
論文 参考訳(メタデータ) (2026-04-06T15:02:35Z) - KEPO: Knowledge-Enhanced Preference Optimization for Reinforcement Learning with Reasoning [24.072603982041798]
強化学習は、大規模言語や視覚言語モデルにおいて、明示的な推論行動を引き起こすための有望なパラダイムとして登場した。
しかしながら、推論指向のRLポストトレーニングは、低軌道レベルの報酬のため、基本的には困難である。
近年のオンライン蒸留法では,教師の集中管理によって最適化の安定化が図られている。
論文 参考訳(メタデータ) (2026-01-30T23:28:37Z) - Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models [44.041109669153506]
On-Policy Self-Distillation (OPSD) は、教師と学生の両方がひとつのモデルで、異なるコンテキストを条件付けして機能するフレームワークである。
複数の数学的推論ベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2026-01-26T17:56:50Z) - AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。
トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。
AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文 参考訳(メタデータ) (2025-10-09T06:38:37Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Learning Domain Adaptive Object Detection with Probabilistic Teacher [93.76128726257946]
確率的教師(PT)と呼ばれる,シンプルで効果的な枠組みを提案する。
PTは、段階的に進化する教師から未ラベルの目標データの不確実性を捉え、相互に有利な方法で生徒の学習を指導することを目的としている。
また,不確実性誘導型自己学習を促進するために,新しいエントロピー・フォカル・ロス(EFL)を提案する。
論文 参考訳(メタデータ) (2022-06-13T16:24:22Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。