論文の概要: RoRecomp: Enhancing Reasoning Efficiency via Rollout Response Recomposition in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25958v1
- Date: Tue, 30 Sep 2025 08:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.482556
- Title: RoRecomp: Enhancing Reasoning Efficiency via Rollout Response Recomposition in Reinforcement Learning
- Title(参考訳): RoRecomp:強化学習におけるロールアウト応答再構成による推論効率の向上
- Authors: Gang Li, Yulei Qin, Xiaoyu Tan, Dingkang Yang, Yuchen Shi, Zihan Xu, Xiang Li, Xing Sun, Ke Li,
- Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)における複雑な推論を導くのに有効であることが証明された。
本稿では,学習データを戦略的に再コンパイルすることで,モデルから簡潔な推論へ導くプラグイン・アンド・プレイ手法であるRoRecompを提案する。
- 参考スコア(独自算出の注目度): 45.850748558862364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has proven effective in eliciting complex reasoning in large language models (LLMs). However, standard RLVR training often leads to excessively verbose processes (in reasoning tasks) and inefficient exploration trajectories (in agentic settings), as outcome-only rewards provide no incentive for efficiency and the high variance in response length within relatively small rollout groups results in noisy optimization signals. To address this, we propose Rollout Response Recomposition (RoRecomp), a plug-and-play method that guides models toward concise reasoning by strategically recomposing the training data. RoRecomp separates responses into two distinct batch types: 1) priority batches, which combine short-correct and long-incorrect responses selected from online batches to provide a clear gradient signal for brevity, and 2) compensation batches, which utilize remaining responses from a replay buffer to maintain stability and prevent model collapse. To comprehensively evaluate effectiveness, we test RoRecomp across three settings where results demonstrate substantial efficiency gains: reducing reasoning length by 27.7% in zero RL training, reducing unnecessary tool calls by 46.8% while improving accuracy in agentic RL, and achieving up to 52.5% length reduction in thinking compression, all with minimal performance impact.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)において複雑な推論を導くのに有効であることが証明されている。
しかしながら、標準的なRLVRトレーニングは、しばしば過度に冗長なプロセス(推論タスク)と非効率な探索軌跡(エージェント設定)をもたらす。
そこで本研究では,学習データを戦略的に再コンパイルすることで,モデルを簡潔な推論へ導くプラグイン・アンド・プレイ手法であるRoRecompを提案する。
RoRecompはレスポンスを2つの異なるバッチタイプに分離する。
1) オンラインバッチから選択された短誤りと長誤りの応答を組み合わせて、簡潔性のための明確な勾配信号を提供する優先バッチ。
2) リプレイバッファからの残りの応答を利用して安定性を保ち、モデル崩壊を防ぐ補正バッチ。
提案手法の有効性を総合的に評価するため,RoRecomp は実効性を示す3つの条件で検証し,推論長を27.7%減らし,不必要なツールコールを46.8%減らし,エージェントRLの精度を向上し,思考圧縮を52.5%減らし,性能への影響を最小限に抑えた。
関連論文リスト
- Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。
本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文 参考訳(メタデータ) (2026-02-27T20:23:59Z) - Recycling Failures: Salvaging Exploration in RLVR via Fine-Grained Off-Policy Guidance [39.88432082145946]
本稿では,プロセス・リワード・モデルを用いた新しいフレームワークSCOPEを提案する。
本手法は,部分的正しいロールアウトに精密な改良を加えて,部分的正しい軌道を効果的に回収し,多様性スコアを13.5%向上させる。
提案手法は,数学推論において平均46.6%の精度を達成し,分布外推論タスクにおいて53.4%の精度でロバストな一般化を示す。
論文 参考訳(メタデータ) (2026-02-27T15:49:23Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Beyond Correctness: Learning Robust Reasoning via Transfer [51.403609251508904]
我々は単純な哲学的見解を採用するが、堅牢な推論はそれを作った心を超えて有用であるべきである。
本稿では,トランスファーブル・リワードを用いた強化学習を紹介し,トランスファーブル・リワードによるロバストネスの運用について述べる。
提案手法は,最終回答精度を向上しながらサンプリング一貫性を向上し,ほぼ少ないトレーニングステップで同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-09T10:41:44Z) - Efficient Reasoning via Reward Model [24.105621725286497]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)の推論能力を高めることが示されている。
DeepSeek-R1 や OpenAI o1 のような LRM は、過剰または無関係な推論ステップを含む冗長な応答をしばしば生成する。
本稿では,結果報酬と簡潔度スコアとの間に明確な依存性を有する,CRF(Conciseness Reward Function)という新たな報酬定式化を導入する。
論文 参考訳(メタデータ) (2025-11-12T09:51:07Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - SPARK: Synergistic Policy And Reward Co-Evolving Framework [84.22494672256894]
我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:50:12Z) - Self-Aligned Reward: Towards Effective and Efficient Reasoners [16.740993145927774]
自己整合報酬 (Self-aligned reward, SAR) は、検証可能な報酬を補完し、推論精度と効率の両方を奨励する自己誘導信号である。
SARは, 正確さ, 正解スコアが冗長性よりも高く, 正解スコアが完全誤解よりも高いという, 解答品質を確実に区別することを示す。
論文 参考訳(メタデータ) (2025-09-05T20:39:43Z) - Learning to Reason for Factuality [48.08503522255537]
本稿では,現実的精度,応答詳細度,応答関連度を同時に考慮した新たな報酬関数を提案する。
本モデルでは,幻覚率の平均値が23.1ポイント,回答詳細度が23%増加し,全体の応答効率が低下しない。
論文 参考訳(メタデータ) (2025-08-07T17:57:09Z) - Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z) - When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning [20.233873556056487]
大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を達成するが、しばしば冗長な推論のために過剰な計算オーバーヘッドを引き起こす。
本稿では、不必要な推論を抑え、暗黙の回復を可能にするフレームワークである適応自己回復推論(ASRR)を提案する。
本研究は, LRMの効率, 適応性, 安全性を高めるためのASRRの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-21T11:41:39Z) - Efficient RL Training for Reasoning Models via Length-Aware Optimization [104.97188611117353]
大規模推論モデルの強化学習プロセスに直接統合された3つの重要な報酬設計を提案する。
本手法は, 性能を維持・改善しながら, 応答長を著しく低減する。
論文 参考訳(メタデータ) (2025-05-18T07:46:43Z) - HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback [47.12549302721597]
我々はAIフィードバック(HRLAIF)によるハイブリッド強化学習を提案する。
この方法は、応答に対するAIアノテーションの精度を高め、モデルのトレーニングプロセスにおける有用性をより堅牢にする。
HRLAIFはRLAIFの能力を継承し、低コストで結果に対する人間の嗜好を高めると同時に、反応の満足度を向上させる。
論文 参考訳(メタデータ) (2024-03-13T07:38:20Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。