論文の概要: RoRecomp: Enhancing Reasoning Efficiency via Rollout Response Recomposition in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25958v1
- Date: Tue, 30 Sep 2025 08:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.482556
- Title: RoRecomp: Enhancing Reasoning Efficiency via Rollout Response Recomposition in Reinforcement Learning
- Title(参考訳): RoRecomp:強化学習におけるロールアウト応答再構成による推論効率の向上
- Authors: Gang Li, Yulei Qin, Xiaoyu Tan, Dingkang Yang, Yuchen Shi, Zihan Xu, Xiang Li, Xing Sun, Ke Li,
- Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)における複雑な推論を導くのに有効であることが証明された。
本稿では,学習データを戦略的に再コンパイルすることで,モデルから簡潔な推論へ導くプラグイン・アンド・プレイ手法であるRoRecompを提案する。
- 参考スコア(独自算出の注目度): 45.850748558862364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has proven effective in eliciting complex reasoning in large language models (LLMs). However, standard RLVR training often leads to excessively verbose processes (in reasoning tasks) and inefficient exploration trajectories (in agentic settings), as outcome-only rewards provide no incentive for efficiency and the high variance in response length within relatively small rollout groups results in noisy optimization signals. To address this, we propose Rollout Response Recomposition (RoRecomp), a plug-and-play method that guides models toward concise reasoning by strategically recomposing the training data. RoRecomp separates responses into two distinct batch types: 1) priority batches, which combine short-correct and long-incorrect responses selected from online batches to provide a clear gradient signal for brevity, and 2) compensation batches, which utilize remaining responses from a replay buffer to maintain stability and prevent model collapse. To comprehensively evaluate effectiveness, we test RoRecomp across three settings where results demonstrate substantial efficiency gains: reducing reasoning length by 27.7% in zero RL training, reducing unnecessary tool calls by 46.8% while improving accuracy in agentic RL, and achieving up to 52.5% length reduction in thinking compression, all with minimal performance impact.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)において複雑な推論を導くのに有効であることが証明されている。
しかしながら、標準的なRLVRトレーニングは、しばしば過度に冗長なプロセス(推論タスク)と非効率な探索軌跡(エージェント設定)をもたらす。
そこで本研究では,学習データを戦略的に再コンパイルすることで,モデルを簡潔な推論へ導くプラグイン・アンド・プレイ手法であるRoRecompを提案する。
RoRecompはレスポンスを2つの異なるバッチタイプに分離する。
1) オンラインバッチから選択された短誤りと長誤りの応答を組み合わせて、簡潔性のための明確な勾配信号を提供する優先バッチ。
2) リプレイバッファからの残りの応答を利用して安定性を保ち、モデル崩壊を防ぐ補正バッチ。
提案手法の有効性を総合的に評価するため,RoRecomp は実効性を示す3つの条件で検証し,推論長を27.7%減らし,不必要なツールコールを46.8%減らし,エージェントRLの精度を向上し,思考圧縮を52.5%減らし,性能への影響を最小限に抑えた。
関連論文リスト
- SPARK: Synergistic Policy And Reward Co-Evolving Framework [84.22494672256894]
我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:50:12Z) - Self-Aligned Reward: Towards Effective and Efficient Reasoners [16.740993145927774]
自己整合報酬 (Self-aligned reward, SAR) は、検証可能な報酬を補完し、推論精度と効率の両方を奨励する自己誘導信号である。
SARは, 正確さ, 正解スコアが冗長性よりも高く, 正解スコアが完全誤解よりも高いという, 解答品質を確実に区別することを示す。
論文 参考訳(メタデータ) (2025-09-05T20:39:43Z) - Learning to Reason for Factuality [48.08503522255537]
本稿では,現実的精度,応答詳細度,応答関連度を同時に考慮した新たな報酬関数を提案する。
本モデルでは,幻覚率の平均値が23.1ポイント,回答詳細度が23%増加し,全体の応答効率が低下しない。
論文 参考訳(メタデータ) (2025-08-07T17:57:09Z) - Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z) - When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning [20.233873556056487]
大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を達成するが、しばしば冗長な推論のために過剰な計算オーバーヘッドを引き起こす。
本稿では、不必要な推論を抑え、暗黙の回復を可能にするフレームワークである適応自己回復推論(ASRR)を提案する。
本研究は, LRMの効率, 適応性, 安全性を高めるためのASRRの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-21T11:41:39Z) - Efficient RL Training for Reasoning Models via Length-Aware Optimization [104.97188611117353]
大規模推論モデルの強化学習プロセスに直接統合された3つの重要な報酬設計を提案する。
本手法は, 性能を維持・改善しながら, 応答長を著しく低減する。
論文 参考訳(メタデータ) (2025-05-18T07:46:43Z) - HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback [47.12549302721597]
我々はAIフィードバック(HRLAIF)によるハイブリッド強化学習を提案する。
この方法は、応答に対するAIアノテーションの精度を高め、モデルのトレーニングプロセスにおける有用性をより堅牢にする。
HRLAIFはRLAIFの能力を継承し、低コストで結果に対する人間の嗜好を高めると同時に、反応の満足度を向上させる。
論文 参考訳(メタデータ) (2024-03-13T07:38:20Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。