論文の概要: Multi-Rollout On-Policy Distillation via Peer Successes and Failures
- arxiv url: http://arxiv.org/abs/2605.12652v1
- Date: Tue, 12 May 2026 18:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.625461
- Title: Multi-Rollout On-Policy Distillation via Peer Successes and Failures
- Title(参考訳): ピア継承と失敗によるマルチロールオン・ポリシィ蒸留
- Authors: Weichen Yu, Xiaomin Li, Yizhou Zhao, Xiaoze Liu, Ruowang Zhang, Haixin Wang, Yinyi Luo, Chen Henry Wu, Gaurav Mittal, Matt Fredrikson, Yu Hu,
- Abstract要約: 大規模な言語モデルは、しばしばスパース検証器の報酬で訓練後、サンプルの軌道が成功するかどうかを示すが、推論が成功するか失敗するかについての限られたガイダンスを提供する。
オンライン蒸留(OPD)は、学生が生み出す軌跡の訓練により、より密集したトークンレベルの監督を提供する。
我々は,学生のローカルロールアウトグループを用いて,より情報のある教師信号を構築する,ピアコンディショニング蒸留フレームワークであるMulti-Rollout On-Policy Distillation (MOPD)を紹介した。
- 参考スコア(独自算出の注目度): 31.731266689209914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are often post-trained with sparse verifier rewards, which indicate whether a sampled trajectory succeeds but provide limited guidance about where reasoning succeeds or fails. On-policy distillation (OPD) offers denser token-level supervision by training on student-generated trajectories, yet existing methods typically distill each rollout independently and ignore the other attempts sampled for the same prompt. We introduce Multi-Rollout On-Policy Distillation (MOPD), a peer-conditioned distillation framework that uses the student's local rollout group to construct more informative teacher signals. MOPD conditions the teacher on both successful and failed peer rollouts: successes provide positive evidence for valid reasoning patterns, while failures provide structured negative evidence about plausible mistakes to avoid. We study two peer-context constructions: positive peer imitation and contrastive success-failure conditioning. Experiments on competitive programming, mathematical reasoning, scientific question answering, and tool-use benchmarks show that MOPD consistently improves over standard on-policy baselines. Further teacher-signal analysis shows that mixed success-failure contexts better align teacher scores with verifier rewards, indicating that the gains arise from more faithful, instance-adaptive supervision. These results indicate that effective on-policy distillation should exploit the student's multi-rollout trial-and-error behavior rather than treating rollouts as isolated samples.
- Abstract(参考訳): 大規模な言語モデルは、しばしばスパース検証器の報酬で訓練後、サンプルの軌道が成功するかどうかを示すが、推論が成功するか失敗するかについての限られたガイダンスを提供する。
オンライン蒸留(OPD)は、学生が生成する軌跡の訓練によりより密集したトークンレベルの監督を提供するが、既存の方法では個々のロールアウトを個別に蒸留し、同じプロンプトのためにサンプリングされた他の試みを無視する。
我々は,学生のローカルロールアウトグループを用いて,より情報のある教師信号を構築する,ピアコンディショニング蒸留フレームワークであるMulti-Rollout On-Policy Distillation (MOPD)を紹介した。
MOPDは、成功と失敗の両方のピアロールアウトで教師を条件付けする:成功は有効な推論パターンの肯定的な証拠を提供するが、失敗は回避すべき妥当な誤りに関する構造化された否定的な証拠を提供する。
本稿では,2つのピアコンテキスト構成について検討する。
競合プログラミング、数学的推論、科学的質問応答、ツールユースベンチマークの実験は、MOPDが標準のオンラインベースラインよりも一貫して改善していることを示している。
さらに教師-信号分析により、成功と失敗の混在した状況は、教師のスコアと検証者報酬との整合性が向上し、より忠実でインスタンス適応的な監督によって得られることが示唆された。
これらの結果は, ロールアウトを単独のサンプルとして扱うよりも, 学生のマルチロールアウトの試行錯誤を効果的に活用することが示唆された。
関連論文リスト
- Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Learning with Rare Success but Rich Feedback via Reflection-Enhanced Self-Distillation [71.16738415436458]
本稿では、生の障害フィードバックを補正管理のアクティブソースに変換するフレームワークであるReflection-Enhanced Self-Distillation(RESD)を紹介する。
RESDは、局所的なエラーを診断するために振り返りリフレクションを生成し、持続的なグローバルなプレイブックをキュレートすることで、障害の軌跡を解釈する。
複数の連続学習課題に対する実証的な評価は、RESDが標準の自己蒸留ベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-12T20:46:05Z) - OGLS-SD: On-Policy Self-Distillation with Outcome-Guided Logit Steering for LLM Reasoning [19.98950359294245]
本研究は,教師の特権分布を自己の自給自足軌道に沿って蒸留することにより,言語モデルによる推論能力の向上を図ることを目的とする。
OPSDの性能向上にもかかわらず,教師と生徒の反応のミスマッチがよく見過ごされがちである。
論文 参考訳(メタデータ) (2026-05-12T17:00:53Z) - Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning [66.52232008796294]
Prune-OPDはトレーニング予算と監督品質を動的に調整する。
トレーニング時間を37.6%減らし-68.0%削減すると同時に、しばしば改善され、挑戦的なベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2026-05-08T14:38:53Z) - Preference-Based Self-Distillation: Beyond KL Matching via Reward Regularization [18.027254451537342]
既存の自己蒸留法は、文脈拡張型教師モデルに向けた学習をKLマッチングに大きく還元する。
textbfPreference-textbfBased textbfSelf-textbfDistillation (textbfPBSD)を提案する。
論文 参考訳(メタデータ) (2026-05-06T15:31:50Z) - Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe [53.40076304466524]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)をまたいで一般化する統一OPDフレームワークであるUni-OPDを提案する。
具体的には、学生の立場から、学習中の情報発信状態の探索を促進するために、2つのデータバランス戦略を採用する。
我々は,正しい軌道と間違った軌道の順序の整合性を取り戻すために,結果誘導マージンキャリブレーション機構を開発した。
論文 参考訳(メタデータ) (2026-05-05T12:15:21Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models [44.041109669153506]
On-Policy Self-Distillation (OPSD) は、教師と学生の両方がひとつのモデルで、異なるコンテキストを条件付けして機能するフレームワークである。
複数の数学的推論ベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2026-01-26T17:56:50Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。