論文の概要: Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments
- arxiv url: http://arxiv.org/abs/2606.03892v2
- Date: Wed, 03 Jun 2026 17:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.643754
- Title: Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments
- Title(参考訳): 生環境におけるマルチステップツールの強化学習
- Authors: Ibrahim Abdelaziz, Asim Munawar, Kinjal Basu, Maxwell Crouse, Chulaka Gunasekara, Suneet Katrekar, Pavan Kapanipathi,
- Abstract要約: 本稿では,3つのコントリビューションを持つPROVE(Programmatic Rewards On Verified Environments)を提案する。
20のステートフルMPPサーバからなるライブラリは343のツールを公開し、セッションスコープによるステートアイソレーションによるライブ実行RLトレーニングを可能にする。
状態マシンデータ合成パイプラインは、ライブサンプリングされたサーバ状態にグラウンドされたマルチターンツールコールトラジェクトリを生成し、実際に存在するクエリ参照エンティティを生成する。
BFCLのMulti-Turn、tau2-bench、T-Evalでは、PROVEは最大+10.2、+6.8、+6.5ポイントの改善をもたらす。
- 参考スコア(独自算出の注目度): 12.645050883623982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training LLMs to orchestrate multi-step tool calls is held back by three coupled obstacles: realistic stateful execution environments are costly to build, synthetic training queries are often detached from the server's actual state (so the generated tool calls fail to execute), and recall-based RL rewards incentivize verbose tool-calling patterns. We present PROVE (Programmatic Rewards On Verified Environments), a framework with three contributions: (1) a library of 20 stateful MCP (Model Context Protocol) servers exposing 343 tools, enabling live-execution RL training with session-scoped state isolation; (2) a state-machine data synthesis pipeline that generates multi-turn tool-call trajectories grounded in live-sampled server state, so generated queries reference entities that actually exist; and (3) a multi-component programmatic reward with an adaptive efficiency penalty that counters the verbosity incentive of recall-based rewards. We train four models (Qwen3-4B, Qwen3-8B, Qwen2.5-7B, Granite-4.1-8B) with GRPO on the resulting ~13K training examples. On BFCL Multi-Turn, tau2-bench, and T-Eval, PROVE yields improvements of up to +10.2, +6.8, and +6.5 points respectively, demonstrating that this framework yields consistent gains on multi-step tool orchestration across two model families.
- Abstract(参考訳): 現実的なステートフルな実行環境はビルドにコストがかかり、合成トレーニングクエリはサーバの実際の状態から切り離され(生成したツールコールは実行できない)、リコールベースのRL報酬は冗長なツール呼び出しパターンをインセンティブにする。
提案するPROVE(Programmatic Rewards On Verified Environments)は,(1)ステートフルMPP(Model Context Protocol)サーバ20のライブラリが343のツールを公開し,セッションスコープによる状態分離による実演RLトレーニングを可能にする,(2)マルチターンツールコールトラジェクトリを生成するステートマシンデータ合成パイプライン,(3)リコールベース報酬の冗長性インセンティブに対抗したマルチコンポーネントプログラム報酬,という3つのコントリビューションを持つフレームワークである。
Qwen3-4B、Qwen3-8B、Qwen2.5-7B、Granite-4.1-8Bの4つのモデルをGRPOで訓練し、その結果の ~13K トレーニングの例を示す。
BFCL Multi-Turn, tau2-bench, T-Eval では PROVE が +10.2, +6.8, +6.5 点の改善を実現し、このフレームワークが2つのモデルファミリにわたるマルチステップツールオーケストレーションにおいて一貫した利益をもたらすことを示した。
関連論文リスト
- EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL [54.09410318521061]
本稿では,エージェント強化学習(Agentic RL)トレーニングのための完全に自動化されたフレームワークであるEnvFactoryを紹介する。
EnvFactoryは、認証リソースから自律的に、ステートフルで実行可能なツール環境を探索する。
トポロジーを意識したサンプリングとキャリブレーションによる自然なマルチターン軌道を合成する。
トレーニング効率とダウンストリーム性能が向上し、BFCLv3ではQwen3シリーズモデルを最大15%改善し、MPP-Atlasでは+8.6%、VitaBenchでは+6%向上した。
論文 参考訳(メタデータ) (2026-05-18T17:37:40Z) - UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents [22.52508596251479]
構築とデータセット生成から評価に至るまで,パイプライン全体を標準化するツール学習用統合フレームワークであるUniToolCallを提案する。
我々は、7つの公開ベンチマークを、関数呼び出し、ターン、会話のレベルできめ細かい評価を施した、クエリ-Action--Observation-Answer (QAOA) 表現に変換する。
Anchoror-Heavy Hybrid-20では、1ターンのStrict Precisionを93.0%達成し、GPT、Gemini、Claudeといった商用モデルを上回っている。
論文 参考訳(メタデータ) (2026-04-13T14:43:47Z) - Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents [23.583947864141162]
EigenDataは階層的なマルチエージェントエンジンで、ツール基底の対話と実行可能なインスタンスごとのチェッカーを合成する。
合成データに基づいて、まずユーザモデルを微調整し、GRPOスタイルのトレーニングを適用するRLレシピを開発する。
以上の結果から,高価なアノテーションを使わずに,複雑なツールの動作をブートストラップするためのスケーラブルな経路が示唆された。
論文 参考訳(メタデータ) (2026-01-30T06:01:23Z) - RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use [50.52940111891476]
大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
マルチラウンドツール用プラグイン・アンド・プレイ強化学習フレームワークであるRLFactoryを提案する。
論文 参考訳(メタデータ) (2025-08-31T16:47:31Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。