論文の概要: DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes
- arxiv url: http://arxiv.org/abs/2605.28421v1
- Date: Wed, 27 May 2026 12:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.056078
- Title: DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes
- Title(参考訳): DenoiseRL: ノイズプレフィックスから回復するためのブートストラップ推論モデル
- Authors: Caijun Xu, Changyi Xiao, Zhongyuan Peng, Yixin Cao,
- Abstract要約: DenoiseRLは、リカバリ指向の最適化で外部監視を代替する強化学習フレームワークである。
DenoiseRLは、誤った推論トレースから直接学習し、それらを改善の機会に変換する。
実証的に言えば、DenoiseRLは競争力のある数学的および一般的な推論ベンチマークにおいて、政治的RLベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 12.903392894575731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depend on stronger teacher models or heavily curated difficult datasets, limiting scalable capability improvement. In this paper, we introduce DenoiseRL, a reinforcement learning framework that substitutes external supervision with recovery-oriented optimization over failures from weak models. Instead of relying on stronger supervision or carefully engineered data, DenoiseRL learns directly from incorrect reasoning traces by converting them into opportunities for improvement, making training more scalable and less dependent on external resources. This yields a richer and more diverse learning signal, improving exploration efficiency from imperfect model behavior. As a result, DenoiseRL improves reasoning performance and overall training efficiency while reducing the need for expensive data curation or stronger teacher models. Empirically, DenoiseRL consistently outperforms strong on-policy RL baselines across competitive mathematical and general reasoning benchmarks and promotes stronger self-corrective behavior as training difficulty increases, highlighting an effective and scalable alternative pathway for improving reasoning in large language models.
- Abstract(参考訳): 強化学習は、大規模言語モデルにおける推論を推し進める中心的なパラダイムとなっているが、既存のほとんどのメソッドは、いまだに強力な教師モデルや、高度にキュレートされた難しいデータセットに依存しており、スケーラブルな能力改善を制限している。
本稿では,弱いモデルからの障害に対するリカバリ指向の最適化により,外部監視を代替する強化学習フレームワークであるDenoiseRLを紹介する。
DenoiseRLは、より強力な監督や慎重に設計されたデータに頼る代わりに、それらを改善の機会に変換し、トレーニングをよりスケーラブルで外部リソースに依存しないものにすることで、誤った推論トレースから直接学習する。
これにより、より豊かで多様な学習信号が得られ、不完全なモデルの振る舞いから探索効率が向上する。
その結果、DenoiseRLは、高価なデータキュレーションやより強力な教師モデルの必要性を低減しつつ、推論性能と全体的なトレーニング効率を改善した。
実証的に言えば、DenoiseRLは競争力のある数学的および一般的な推論のベンチマークにおいて、強力なRLベースラインを一貫して上回り、トレーニングの難しさが増大するにつれて、より強力な自己修正行動を促進し、大きな言語モデルにおける推論を改善するための効果的でスケーラブルな代替経路を強調している。
関連論文リスト
- Reinforcement Learning from Denoising Feedback [22.358386875891053]
拡散言語モデル(dLLMs)の強化学習(RL)における政策損失推定は依然として基礎的かつ長期にわたる課題である。
本稿では、ロールアウトとトレーニングプロセスから得られたフィードバックを活用して、正確かつ効率的なポリシー損失推定を容易にする新しいトレーニングパラダイムであるReinforcement Learning from Denoising Feedback (RLDF)を紹介する。
RLDFは、複数の推論ベンチマークにおいて、2つの代表的なdLLMアーキテクチャであるLLaDAとDreamのパフォーマンスと一般化性の両方において、一貫性と実質的な改善を実現している。
論文 参考訳(メタデータ) (2026-05-25T09:39:13Z) - Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。