論文の概要: RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents
- arxiv url: http://arxiv.org/abs/2602.03025v1
- Date: Tue, 03 Feb 2026 02:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.203493
- Title: RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents
- Title(参考訳): RC-GRPO:マルチTurnツール呼び出しエージェントのためのグループ相対ポリシー最適化
- Authors: Haitian Zhong, Jixiu Zhai, Lei Song, Jiang Bian, Qiang Liu, Tieniu Tan,
- Abstract要約: 報酬は希少であり、探索は高価であるため、大規模言語モデルではマルチターンのツールコールは困難である。
一般的なレシピであるSFTとGRPOは、グループ内報酬の変動が低いときに停止する。
本稿では、離散的な報酬トークンを用いて、探索を制御可能なステアリング問題として扱うRC-GRPOを提案する。
- 参考スコア(独自算出の注目度): 40.88916135445381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn tool calling is challenging for Large Language Models (LLMs) because rewards are sparse and exploration is expensive. A common recipe, SFT followed by GRPO, can stall when within-group reward variation is low (e.g., more rollouts in a group receive the all 0 or all 1 reward), making the group-normalized advantage uninformative and yielding vanishing updates. To address this problem, we propose RC-GRPO (Reward-Conditioned Group Relative Policy Optimization), which treats exploration as a controllable steering problem via discrete reward tokens. We first fine-tune a Reward-Conditioned Trajectory Policy (RCTP) on mixed-quality trajectories with reward goal special tokens (e.g., <|high_reward|>, <|low_reward|>) injected into the prompts, enabling the model to learn how to generate distinct quality trajectories on demand. Then during RL, we sample diverse reward tokens within each GRPO group and condition rollouts on the sampled token to improve within-group diversity, improving advantage gains. On the Berkeley Function Calling Leaderboard v4 (BFCLv4) multi-turn benchmark, our method yields consistently improved performance than baselines, and the performance on Qwen-2.5-7B-Instruct even surpasses all closed-source API models.
- Abstract(参考訳): 報奨が不足し,探索が高価であるため,LLM(Large Language Models)のマルチターンツールコールは困難である。
GRPOが続く一般的なレシピであるSFTは、グループ内の報酬変動が低い場合(例えば、グループ内のロールアウトが全0または全1報酬を受け取る)に停止し、グループ正規化された優位性は非形式的であり、消滅する更新をもたらす。
この問題を解決するために,個別の報酬トークンを用いて探索を制御可能なステアリング問題として扱うRC-GRPO(Reward-Conditioned Group Relative Policy Optimization)を提案する。
まず,報奨目標に特別なトークン(例えば,<|high_reward|>,<|low_reward|>)を注入した混合品質軌道上でのReward-Conditioned Trajectory Policy (RCTP) を抽出し,要求に応じて異なる品質軌道を生成する方法を学ぶ。
RL中,各GRPOグループ内の様々な報酬トークンをサンプリングし,サンプルトークンの条件ロールアウトを行い,グループ内の多様性を改善し,優位性を向上させる。
Berkeley Function Calling Leaderboard v4 (BFCLv4) のマルチターンベンチマークでは,本手法はベースラインよりも一貫して性能が向上し,Qwen-2.5-7B-Instructの性能はすべてのクローズドソースAPIモデルを超えている。
関連論文リスト
- Self-Hinting Language Models Enhance Reinforcement Learning [37.311361929798714]
我々は、権限付き監督(SAGE)を備えた自己隠れ型GRPOを提案する。
SAGEはトレーニング中に特権付きヒントを注入し、同じ端末検証者報酬の下でロールアウト分布を再生成する。
3つのLSMを持つ6つのベンチマーク実験の結果、SAGEはGRPOを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-03T05:56:20Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - $λ$-GRPO: Unifying the GRPO Frameworks with Learnable Token Preferences [22.199479724764725]
トークンレベルの重み付けを適応的に制御する学習可能なパラメータ$lambda$を導入します。
lambda$-GRPOはバニラGRPOとDAPOよりも一貫した改善を実現しています。
これらの利益は、トレーニングデータの変更や追加の計算コストなしで得られます。
論文 参考訳(メタデータ) (2025-10-08T10:39:07Z) - MO-GRPO: Mitigating Reward Hacking of Group Relative Policy Optimization on Multi-Objective Problems [18.92779479033295]
グループ相対政策最適化は、正確な報酬モデルが利用できる場合に有効なアルゴリズムであることが示されている。
報奨関数を値のばらつきに応じて自動的に重み付けする単純な正規化法により,GRPOの拡張であるMO-GRPOを提案する。
また、MO-GRPOは、全ての報酬関数が優先順序を保ちながら損失関数に等しく寄与することを保証していることを示す。
論文 参考訳(メタデータ) (2025-09-26T08:32:22Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。