論文の概要: Multi-Turn Reinforcement Learning for Tool-Calling Agents with Iterative Reward Calibration
- arxiv url: http://arxiv.org/abs/2604.02869v1
- Date: Fri, 03 Apr 2026 08:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.40346
- Title: Multi-Turn Reinforcement Learning for Tool-Calling Agents with Iterative Reward Calibration
- Title(参考訳): 反復リワード校正による工具搬送エージェントの多段階強化学習
- Authors: Wachiravit Modecrua, Krittanon Kaewtawee, Krittin Pachtrachai, Touchapon Kraisingkorn,
- Abstract要約: マルチターンタスクにおける強化学習を伴う訓練ツール呼び出しエージェントは依然として困難である。
本稿では,MT-GRPO と GTPO を用いて,現実的なカスタマーサービスタスクにおけるツールコールエージェントのトレーニングを行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training tool-calling agents with reinforcement learning on multi-turn tasks remains challenging due to sparse outcome rewards and difficult credit assignment across conversation turns. We present the first application of MT-GRPO (Multi-Turn Group Relative Policy Optimization) combined with GTPO (Generalized Token-level Policy Optimization) for training a tool-calling agent on realistic customer service tasks with an LLM-based user simulator. Through systematic analysis of training rollouts, we discover that naively designed dense per-turn rewards degrade performance by up to 14 percentage points due to misalignment between reward discriminativeness and advantage direction. We introduce Iterative Reward Calibration, a methodology for designing per-turn rewards using empirical discriminative analysis of rollout data, and show that our GTPO hybrid advantage formulation eliminates the advantage misalignment problem. Applied to the Tau-Bench airline benchmark, our approach improves Qwen3.5-4B from 63.8 percent to 66.7 percent (+2.9pp) and Qwen3-30B-A3B from 58.0 percent to 69.5 percent (+11.5pp) -- with the trained 4B model exceeding GPT-4.1 (49.4 percent) and GPT-4o (42.8 percent) despite being 50 times smaller, and the 30.5B MoE model approaching Claude Sonnet 4.5 (70.0 percent). To our knowledge, these are the first published RL training results on Tau-Bench. We release our code, reward calibration analysis, and training recipes.
- Abstract(参考訳): マルチターンタスクにおける強化学習を伴う訓練用ツール呼び出しエージェントは、少ない結果の報酬と会話のターン間の信用配分が難しいため、依然として困難である。
MT-GRPO(Multi-Turn Group Relative Policy Optimization)とGTPO(Generalized Token-level Policy Optimization)を併用して,LCMベースのユーザシミュレータを用いた現実的なカスタマーサービスタスクにおけるツール呼び出しエージェントのトレーニングを行う。
トレーニングロールアウトの系統的解析により、報酬判別と有利方向の相違により、一ターン当たりの高密度報酬が最大14ポイント低下することが判明した。
本稿では,ロールアウトデータの実証的識別分析を用いてターンごとの報酬を設計する手法であるIterative Reward Calibrationを紹介し,GTPOハイブリッド・アドバンテージ・フォーミュレーションが有利なミスアライメント問題を排除していることを示す。
タウ・ベンチのベンチマークでは、Qwen3.5-4Bを63.8%から66.7%(+2.9pp)に、Qwen3-30B-A3Bを58.0%から69.5%(+11.5pp)に改善しました。
私たちの知る限り、これらはTau-Benchに関する最初のRLトレーニング結果です。
コード、報酬のキャリブレーション分析、トレーニングレシピをリリースしています。
関連論文リスト
- AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling [12.42698406379544]
AgentHERは、自然言語エージェントトラジェクトリにHindsight Experience原則を適用することで、失われたトレーニング信号を回復する。
破棄された障害を高品質のSFT、DPO、ShareGPTトレーニングデータに変換する。
WebArena Replay (Zhou et al., 2024)とToolBench (Qin et al., 2024)では、AgentHERは4つのモデルファミリーで成功のみのSFTを+7.1-11.7ppで改善している。
論文 参考訳(メタデータ) (2026-03-22T18:36:58Z) - EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge [8.50639201265868]
EvasionBenchを紹介します。3万のトレーニングサンプルと1,000人の人手によるテストサンプルで構成されています。
2つの強いアノテータが衝突し、審査員がラベルを解消する境界ケースを抽出する。
トレーニングされたモデルEva-4B(4Bパラメータ)は81.3%の精度でベースを25ポイント上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:26:43Z) - SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning [39.1720897614261]
密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。
筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。
ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
論文 参考訳(メタデータ) (2025-12-02T21:30:47Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models [1.96238419451815]
大規模言語モデル(LLM)は、プログラミングや数学的推論タスクにおいて強力な能力を示しているが、高品質な訓練データに制限されている。
我々は,高品質なトレーニングデータを確保するために,地道プルースプルーニングを用いて,自身の推論トレースを反復的に微調整するスケーラブルなフレームワークを導入する。
GSM8Kでは、Gemma2-2Bは57.6%(41.9%から)のPass@1、Gemma2-9Bは82%、LLaMA-3.1-70B、LLaMA-3.1-70Bは91%、GPT-4oを超える。
論文 参考訳(メタデータ) (2025-04-25T06:48:55Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.95584393629998]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。