論文の概要: When Simulation Lies: A Sim-to-Real Benchmark and Domain-Randomized RL Recipe for Tool-Use Agents
- arxiv url: http://arxiv.org/abs/2605.11928v1
- Date: Tue, 12 May 2026 10:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.802655
- Title: When Simulation Lies: A Sim-to-Real Benchmark and Domain-Randomized RL Recipe for Tool-Use Agents
- Title(参考訳): シミュレーションが終わったとき: ツール・ユース・エージェントのためのSim-to-RealベンチマークとDomain-Randomized RLレシピ
- Authors: Xiaolin Zhou, Aojie Yuan, Zheng Luo, Zipeng Ling, Xixiao Pan, Yicheng Gao, Haiyue Zhang, Jiate Li, Shuli Jiang, Prince Zizhuang Wang, Zixuan Zhu, Jinbo Liu, Ryan A. Rossi, Hua Wei, Xiyang Hu,
- Abstract要約: ツール使用による部分的に観測可能なマルコフ決定過程(POMDP)における実測ギャップとしての失敗について検討する。
本稿では,ドメインランダム化強化学習(RL)レシピであるToolRL-DRを提案する。
3Bバックボーンでは、ToolRL-DR-Fullは約4分の3のクリーンな精度を維持し、オープンソースの14B関数呼び出しベースラインに匹敵する集計精度に達する。
- 参考スコア(独自算出の注目度): 32.54888729689753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-use language agents are evaluated on benchmarks that assume clean inputs, unambiguous tool registries, and reliable APIs. Real deployments violate all these assumptions: user typos propagate into hallucinated tool names, a misconfigured request timeout can stall an agent indefinitely, and duplicate tool names across servers can freeze an SDK. We study these failures as a sim-to-real gap in the tool-use partially observable Markov decision process (POMDP), where deployment noise enters through the observation, action space, reward-relevant metadata, or transition dynamics. We introduce RobustBench-TC, a benchmark with 22 perturbation types organized by these four POMDP components, each grounded in a verified GitHub issue or documented tool-calling failure. Across 21 models from 1.5B to 32B parameters (including the closed-source o4-mini), the robustness profile is sharply uneven: observation perturbations reduce accuracy by less than 5%, while reward-relevant and transition perturbations reduce accuracy by roughly 40% and 30%, respectively; scale alone does not close these gaps. We then propose ToolRL-DR, a domain-randomization reinforcement learning (RL) recipe that trains a tool-use agent on perturbation-augmented trajectories spanning the three statically encodable POMDP components. On a 3B backbone, ToolRL-DR-Full retains roughly three-quarters of clean accuracy and reaches an aggregate perturbed accuracy comparable to open-source 14B function-calling baselines while substantially narrowing the gap to o4-mini. It closes approximately 27% of the Transition gap despite never seeing transition perturbations in training, suggesting that RL on adversarial static tool-use inputs induces a more persistent retry policy that transfers to unseen runtime failures. The dataset, code and benchmark leaderboard are publicly available.
- Abstract(参考訳): ツール使用言語エージェントは、クリーンな入力、あいまいなツールレジストリ、信頼性の高いAPIを前提としたベンチマークで評価される。
ユーザのタイプミスが幻覚ツール名に伝播し、設定ミスの要求タイムアウトがエージェントを無期限に停止させ、サーバ間の重複ツール名がSDKを凍結する。
我々は,これらの障害を,観察,行動空間,報酬関連メタデータ,あるいは遷移ダイナミクスを通じて展開ノイズが流入するツール用部分観測可能マルコフ決定プロセス(POMDP)における,シミュレート・トゥ・リアルギャップとして検討する。
これら4つのPOMDPコンポーネントによって構成された22の摂動型を備えたベンチマークであるRobustBench-TCを紹介します。
1.5B から 32B パラメータ (クローズソース o4-mini を含む) の21モデルにわたって、ロバスト性プロファイルは著しく不均一であり、観測摂動は5%未満の精度で、報酬関連摂動と遷移摂動はそれぞれ約40%と30%の精度で精度を下げる。
次に,3つの静的エンコード可能なPOMDPコンポーネントにまたがる摂動増強軌道上で,ツール使用エージェントを訓練するドメインランダム化強化学習(RL)レシピであるToolRL-DRを提案する。
3Bバックボーンでは、ToolRL-DR-Fullは約4分の3のクリーンな精度を維持し、オープンソースの14B関数呼び出しベースラインに匹敵する集約的な摂動精度に達しながら、ギャップをo4-miniにかなり狭めている。
トレーニングで移行の摂動を見ることなく、移行ギャップの約27%を閉じており、対向的な静的ツール使用入力のRLは、目に見えないランタイム障害に移行するより永続的な再試行ポリシを誘導することを示している。
データセット、コード、ベンチマークのリーダーボードが公開されている。
関連論文リスト
- TRACER: Verifiable Generative Provenance for Multimodal Tool-Using Agents [19.156453695628013]
マルチモーダル・ツール・ユース・エージェントにおけるジェネレーティブ・プロビデンスを検証するためのフレームワークであるTRACERを紹介する。
TraCERは、サポートツールターン、エビデンスユニット、セマンティックサポート関係を識別する構造化された証明レコードとともに、各回答文を生成する。
Qwen3-VL-8Bでは、TRACERは78.23%の回答精度と95.72%の要約精度に達し、最強のクローズドソースツール強化ベースラインを23.80ポイント上回った。
論文 参考訳(メタデータ) (2026-05-11T03:32:55Z) - Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning [82.89535601592739]
マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
論文 参考訳(メタデータ) (2026-04-10T18:38:52Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - RIVA: Leveraging LLM Agents for Reliable Configuration Drift Detection [3.494935876363005]
既存のエージェントシステムは、彼らが呼び出すツールが常に正しい出力を返すと暗黙的に仮定している。
我々は,ツールが誤りや誤解を招く出力を生成する場合でも,堅牢なIaC検証を行う,新しいマルチエージェントシステムであるRIVAを紹介する。
この結果から,多種多様なツールコールの相互検証により,実運用環境におけるより信頼性の高い自律的インフラストラクチャ検証が可能であることが示唆された。
論文 参考訳(メタデータ) (2026-03-02T19:28:27Z) - Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors [41.78467154106763]
本稿では,実行エラーをRLトレーニングループ内の修正監視に変換するフレームワークであるFission-GRPOを提案する。
私たちのコアメカニズムは、微調整されたエラーシミュレータの診断フィードバックによって、新しいトレーニングインスタンスへの各障害軌跡を増大させます。
BFCL v4 Multi-Turnでは、Fission-GRPOはQwen3-8Bのエラー回復率を5.7%改善し、その精度は4%向上した。
論文 参考訳(メタデータ) (2026-01-22T03:57:35Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Adaptive Monitoring and Real-World Evaluation of Agentic AI Systems [3.215065407261898]
大規模言語モデルと外部ツールを組み合わせたマルチエージェントシステムは、研究機関からハイテイクドメインへと急速に移行している。
この「先進的な」続編は、アルゴリズムのインスタンス化や経験的な証拠を提供することで、そのギャップを埋める。
AMDMは擬似ゴールドリフトで異常検出遅延を12.3秒から5.6秒に減らし、偽陽性率を4.5%から0.9%に下げる。
論文 参考訳(メタデータ) (2025-08-28T15:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。