Fugu-MT 論文翻訳(概要): DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

論文の概要: DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

arxiv url: http://arxiv.org/abs/2605.28421v1
Date: Wed, 27 May 2026 12:52:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:56.056078
Title: DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes
Title（参考訳）: DenoiseRL: ノイズプレフィックスから回復するためのブートストラップ推論モデル
Authors: Caijun Xu, Changyi Xiao, Zhongyuan Peng, Yixin Cao,
Abstract要約: DenoiseRLは、リカバリ指向の最適化で外部監視を代替する強化学習フレームワークである。 DenoiseRLは、誤った推論トレースから直接学習し、それらを改善の機会に変換する。実証的に言えば、DenoiseRLは競争力のある数学的および一般的な推論ベンチマークにおいて、政治的RLベースラインを一貫して上回っている。
参考スコア（独自算出の注目度）: 12.903392894575731
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning has become a central paradigm for advancing reasoning in large language models, yet most existing methods still depend on stronger teacher models or heavily curated difficult datasets, limiting scalable capability improvement. In this paper, we introduce DenoiseRL, a reinforcement learning framework that substitutes external supervision with recovery-oriented optimization over failures from weak models. Instead of relying on stronger supervision or carefully engineered data, DenoiseRL learns directly from incorrect reasoning traces by converting them into opportunities for improvement, making training more scalable and less dependent on external resources. This yields a richer and more diverse learning signal, improving exploration efficiency from imperfect model behavior. As a result, DenoiseRL improves reasoning performance and overall training efficiency while reducing the need for expensive data curation or stronger teacher models. Empirically, DenoiseRL consistently outperforms strong on-policy RL baselines across competitive mathematical and general reasoning benchmarks and promotes stronger self-corrective behavior as training difficulty increases, highlighting an effective and scalable alternative pathway for improving reasoning in large language models.
Abstract（参考訳）: 強化学習は、大規模言語モデルにおける推論を推し進める中心的なパラダイムとなっているが、既存のほとんどのメソッドは、いまだに強力な教師モデルや、高度にキュレートされた難しいデータセットに依存しており、スケーラブルな能力改善を制限している。本稿では,弱いモデルからの障害に対するリカバリ指向の最適化により,外部監視を代替する強化学習フレームワークであるDenoiseRLを紹介する。 DenoiseRLは、より強力な監督や慎重に設計されたデータに頼る代わりに、それらを改善の機会に変換し、トレーニングをよりスケーラブルで外部リソースに依存しないものにすることで、誤った推論トレースから直接学習する。これにより、より豊かで多様な学習信号が得られ、不完全なモデルの振る舞いから探索効率が向上する。その結果、DenoiseRLは、高価なデータキュレーションやより強力な教師モデルの必要性を低減しつつ、推論性能と全体的なトレーニング効率を改善した。実証的に言えば、DenoiseRLは競争力のある数学的および一般的な推論のベンチマークにおいて、強力なRLベースラインを一貫して上回り、トレーニングの難しさが増大するにつれて、より強力な自己修正行動を促進し、大きな言語モデルにおける推論を改善するための効果的でスケーラブルな代替経路を強調している。

論文の概要: DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

関連論文リスト