論文の概要: ROSD: Reflective On-Policy Self-Distillation for Language Model Reasoning across Domains
- arxiv url: http://arxiv.org/abs/2605.28014v1
- Date: Wed, 27 May 2026 06:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.794396
- Title: ROSD: Reflective On-Policy Self-Distillation for Language Model Reasoning across Domains
- Title(参考訳): ROSD: ドメイン間の言語モデル推論のための反射的オンポリシィ自己蒸留
- Authors: Ziqi Zhao, Xinyu Ma, Liu Yang, Yujie Feng, Daiting Shi, Jingzhou He, Xin Xin, Zhaochun Ren, Xiao-Ming Wu,
- Abstract要約: 大規模言語モデル(LLM)の推論性能を向上するオンライン自己蒸留(OPSD)
既存のOPSD法はドメイン内推論において限定的な利得をもたらし、ドメイン外問題に悪影響を及ぼす。
本稿では,参照ソリューションの模倣を対象の推論補正に変換するフレームワークであるReflective On-policy Self-Distillation (ROSD)を提案する。
- 参考スコア(独自算出の注目度): 40.558397280256685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy self-distillation (OPSD) improves the reasoning performance of large language models (LLMs) by providing dense token-level supervision for on-policy rollouts. However, existing OPSD methods often yield limited gains on in-domain reasoning and generalize poorly to out-of-domain problems. We identify two key causes: conditioning the self-teacher on a verified solution encourages imitation of training-domain reference trajectories rather than error-specific correction, and applying distillation to the full response can overwrite valid reasoning prefixes and reinforce overfitting. We propose Reflective On-policy Self-Distillation (ROSD), a framework that turns reference-solution imitation into targeted reasoning correction through reflection-guided, error-localized distillation. For each rollout, ROSD uses a self-reflector to extract a corrective idea and locate the first erroneous span. The corrective idea guides the self-teacher toward targeted supervision, while the localized error span restricts distillation to where correction is needed. This design corrects flawed reasoning while preserving valid prefixes. Experiments on multiple in-domain and out-of-domain reasoning benchmarks show that ROSD yields stronger in-domain reasoning performance overall and substantially better out-of-domain generalization than standard OPSD. Code is available at https://github.com/ZiqiZhao1/ROSD.
- Abstract(参考訳): On-policy Self-distillation (OPSD) は、大規模言語モデル(LLM)の推論性能を向上させる。
しかし、既存のOPSD法はドメイン内推論において限られた利得を得ることが多く、ドメイン外問題への一般化が不十分である。
検証されたソリューションで自己学習者を条件付けすることは、エラー固有の補正よりも訓練領域参照軌道の模倣を促進すること、そして完全な応答に蒸留を適用することで、有効な推論プレフィックスを上書きし、過剰適合を補強すること、の2つの主要な原因を特定する。
提案手法は, 基準溶液の模擬を, 反射誘導型, 誤差局在型蒸留による目標推理補正に変換するフレームワークである。
ロールアウト毎に、ROSDは自己修正器を使用して修正アイデアを抽出し、最初の誤ったスパンを見つける。
補正アイデアは、自己教育者が目標とする監督に向けて導く一方で、局所的な誤差は、補正が必要な場所への蒸留を制限する。
この設計は、有効なプレフィックスを保持しながら、欠陥のある推論を修正する。
複数のドメイン内およびドメイン外推論ベンチマークの実験により、ROSDはドメイン内推論性能を全般的に向上し、標準OPSDよりもドメイン外一般化が大幅に向上することが示された。
コードはhttps://github.com/ZiqiZhao1/ROSDで入手できる。
関連論文リスト
- AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment [39.63424981516754]
非対称メタ反射型自己蒸留(AMR-SD)
非対称なReLUゲートしきい値を持つ因果情報ゲイン(CIG)を導入し、これらの反射をスパースで高精度なトークンレベルの利点変調に変換する。
科学的、数学的、ツール使用のベンチマークによる実験は、AMR-SDが既存のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-18T15:14:34Z) - Validity-Calibrated Reasoning Distillation [4.277471273303775]
推論蒸留は、大規模言語モデルからより小さく、より効率的なものへの多段階推論能力を伝達することを目的としている。
近年の手法は静的教師の階層化と軌道模倣としてのフレーム蒸留に依存している。
本稿では, 局所的な学習信号割り当ての問題として, 推論蒸留を取り扱う枠組みである妥当性校正推論蒸留を提案する。
論文 参考訳(メタデータ) (2026-04-14T12:32:12Z) - Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping [51.33479921152361]
大規模言語モデル(LLM)は、信頼性を損なう欠点のある推論能力を示すことが多い。
推論を改善する既存のアプローチは一般的に、一般的なモノリシックなスキルとして扱い、非効率で特定の推論エラーをターゲットできない広範囲なトレーニングを適用する。
本稿では,LLMにおける特定の推論パターンを選択的に修正し,他の推論経路を保存するためのパラダイムであるReasoning Editingを紹介する。
論文 参考訳(メタデータ) (2026-03-06T22:51:39Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Directional Attractors in LLM Reasoning: How Similarity Retrieval Steers Iterative Summarization Based Reasoning [0.0]
InftyThink with Cross-Chain Memoryは、以前成功した推論パターンの埋め込みベースのセマンティックキャッシュで反復推論を強化する拡張である。
実験により、意味補題検索は、不均一なドメインを含むテストにおいて、障害モードを露呈しながら、構造化ドメインの精度を向上させることが示された。
論文 参考訳(メタデータ) (2025-12-22T00:26:54Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。