論文の概要: Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification
- arxiv url: http://arxiv.org/abs/2601.21244v1
- Date: Thu, 29 Jan 2026 04:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.565101
- Title: Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification
- Title(参考訳): 雑音の少ない, 声の増す: 指示浄化による推論のための強化学習
- Authors: Yiju Guo, Tianyi Hu, Zexu Sun, Yankai Lin,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM推論の進歩であるが、限定的なロールアウト予算の下での非効率な探索によって制約されている。
多くの探索失敗は、問題の難しさではなく、干渉を引き起こすプロンプトトークンの少なさから生じている。
本稿では、干渉トークンの識別と削除を最初に促すLess Noise Smpling Framework(LENS)を提案する。
- 参考スコア(独自算出の注目度): 44.681296696564004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has advanced LLM reasoning, but remains constrained by inefficient exploration under limited rollout budgets, leading to low sampling success and unstable training in complex tasks. We find that many exploration failures arise not from problem difficulty, but from a small number of prompt tokens that introduce interference. Building on this insight, we propose the Less Noise Sampling Framework (LENS), which first prompts by identifying and removing interference tokens. then transfers successful rollouts from the purification process to supervise policy optimization on the original noisy prompts, enabling the model to learn to ignore interference in the real-world, noisy prompting settings. Experimental results show that LENS significantly outperforms GRPO, delivering higher performance and faster convergence, with a 3.88% average gain and over 1.6$\times$ speedup. Our work highlights the critical role of pruning interference tokens in improving rollout efficiency, offering a new perspective for RLVR research.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM推論の進歩であるが、限定的なロールアウト予算下での非効率な探索によって制約され、サンプリング成功の低さと複雑なタスクにおける不安定なトレーニングにつながっている。
多くの探索失敗は、問題の難しさではなく、干渉を引き起こすプロンプトトークンの少なさから生じている。
この知見に基づいて、干渉トークンの識別と除去を最初に促すLess Noise Smpling Framework(LENS)を提案する。
次に、浄化プロセスから成功したロールアウトを転送して、元のノイズプロンプトのポリシー最適化を監督する。
実験の結果、LENSはGRPOを著しく上回り、より高い性能とより高速な収束を実現し、平均利得は3.88%、1.6$\times$スピードアップを上回った。
我々の研究は、ロールアウト効率の改善における干渉トークンのプルーニングの重要性を強調し、RLVR研究の新たな視点を提供する。
関連論文リスト
- LLM Optimization Unlocks Real-Time Pairwise Reranking [6.0141312590967635]
Pairwise Re rank Prompting (PRP) はそのユーザビリティと有効性から,将来性のあるプラグアンドプレイアプローチとして登場した。
本稿では、ペアワイズ・リライジングに焦点を合わせ、厳密な最適化手法がこれらの問題を著しく軽減できることを実証する。
Recall@kで測定されたパフォーマンスは、61.36秒から0.37秒まで、最高166倍の遅延削減を実現しています。
論文 参考訳(メタデータ) (2025-11-10T19:04:41Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration [61.350777880329815]
Reinforcement Learning with Verifiable Reward (RLVR)は、大規模言語モデルにおける推論能力をアンロックするための強力なパラダイムとして登場した。
RLVRの完全なポテンシャルは、モデルがサンプリングできる最も難しい深さと、単一のイテレーションで消費されるインスタンスの数という2つの未探索の次元によって妨げられていることを示す。
本稿では,多段ロールアウトによる難易度再重み付けを行うDARS(Difficulty Adaptive Rollout Smpling)を提案する。
論文 参考訳(メタデータ) (2025-08-19T11:51:40Z) - NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [66.36912000442608]
NoisyRolloutは単純だが効果的なデータ拡張手法である。
きれいで適度に歪んだ画像からトレーニングの軌跡を混ぜる。
オープンソースのRLチューニングモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T16:10:13Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。