論文の概要: Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents
- arxiv url: http://arxiv.org/abs/2602.16246v1
- Date: Wed, 18 Feb 2026 07:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.54399
- Title: Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents
- Title(参考訳): 拡張性検証リワードに向けて:多ターン工具搬送LDMエージェントのプロキシ状態に基づく評価
- Authors: Yun-Shiuan Chuang, Chaitanya Kulkarni, Alec Chiu, Avinash Thangali, Zijie Pan, Shivani Shekhar, Yirou Ge, Yixi Li, Uma Kona, Linsey Pang, Prakhar Mehrotra,
- Abstract要約: 大規模言語モデル (LLM) エージェントは多ターン対話や多段階のツール呼び出しによって運用に利用されつつある。
以前のエージェントベンチマークは、ビルドとイテレーションにコストがかかる、完全に決定論的バックエンドに依存していた。
決定論的データベースを使わずに最終状態ベース評価を保持するLLM駆動型シミュレーションフレームワークであるProxy State-Based Evaluationを提案する。
- 参考スコア(独自算出の注目度): 8.760287445955045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive large language model (LLM) agents operating via multi-turn dialogue and multi-step tool calling are increasingly used in production. Benchmarks for these agents must both reliably compare models and yield on-policy training data. Prior agentic benchmarks (e.g., tau-bench, tau2-bench, AppWorld) rely on fully deterministic backends, which are costly to build and iterate. We propose Proxy State-Based Evaluation, an LLM-driven simulation framework that preserves final state-based evaluation without a deterministic database. Specifically, a scenario specifies the user goal, user/system facts, expected final state, and expected agent behavior, and an LLM state tracker infers a structured proxy state from the full interaction trace. LLM judges then verify goal completion and detect tool/user hallucinations against scenario constraints. Empirically, our benchmark produces stable, model-differentiating rankings across families and inference-time reasoning efforts, and its on-/off-policy rollouts provide supervision that transfers to unseen scenarios. Careful scenario specification yields near-zero simulator hallucination rates as supported by ablation studies. The framework also supports sensitivity analyses over user personas. Human-LLM judge agreement exceeds 90%, indicating reliable automated evaluation. Overall, proxy state-based evaluation offers a practical, scalable alternative to deterministic agentic benchmarks for industrial LLM agents.
- Abstract(参考訳): 対話型大規模言語モデル (LLM) エージェントは多ターン対話や多段階のツール呼び出しを通じて運用されている。
これらのエージェントのベンチマークは、モデルと政策上のトレーニングデータの両方を確実に比較する必要がある。
以前のエージェントベンチマーク(例: tau-bench, tau2-bench, AppWorld)は、ビルドとイテレーションにコストがかかる完全な決定論的バックエンドに依存していた。
決定論的データベースを使わずに最終状態ベース評価を保持するLLM駆動型シミュレーションフレームワークであるProxy State-Based Evaluationを提案する。
具体的には、ユーザ目標、ユーザ/システム事実、期待された最終状態、期待されるエージェントの振る舞いをシナリオで指定し、LLM状態トラッカーは完全なインタラクショントレースから構造化されたプロキシ状態を推測する。
LLMの審査員は、ゴール完了を検証し、シナリオ制約に対するツール/ユーザ幻覚を検出する。
実証的に、我々のベンチマークは、家族間の安定したモデル差のランキングと推論時推論の取り組みを生成し、そのオン・オフ・ポリシーのロールアウトは、見当たらないシナリオに移行する監督を提供する。
注意深いシナリオ仕様は、アブレーション研究によって支持されるほぼゼロのシミュレータ幻覚率をもたらす。
このフレームワークは、ユーザペルソナに対する感度分析もサポートする。
人間とLLMの判断は90%を超え、信頼性の高い自動評価を示す。
全体として、プロキシ状態に基づく評価は、産業用LLMエージェントの決定論的エージェントベンチマークに代わる実用的でスケーラブルな代替手段を提供する。
関連論文リスト
- MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness [0.4893345190925178]
大型言語モデル (LLM) は人間のシミュレータとしてますます使われている。
Naive "act-as-a-user" はしばしば冗長で非現実的な発話をもたらす。
ユーザプロキシを評価するベンチマークフレームワークであるMIRRORBENCHについて述べる。
論文 参考訳(メタデータ) (2026-01-13T01:16:13Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification [17.67273082468732]
検証 -- エージェントの振る舞いに報酬を割り当てる関数 -- は、数学やボードゲームのような分野におけるAIの進歩の鍵となっている。
我々は,Multimodal Large Language Models (MLLM) を,Webナビゲーション,コンピュータ利用,ロボット操作におけるエージェントトラジェクトリの検証手段として評価した。
本稿では,MLLMの知識と推論をより効果的に活用する軽量な手法である自己検証(SGV)を提案する。
論文 参考訳(メタデータ) (2025-07-15T18:50:29Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Integrating Counterfactual Simulations with Language Models for Explaining Multi-Agent Behaviour [35.19786322586909]
AXIS(Interrogative Simulation)を用いたエージェントeXplanationを提案する。
AXISはマルチエージェントポリシーのための人間中心のアクション説明を生成する。
自動運転車のAXISを10シナリオで5 LLMで評価した。
論文 参考訳(メタデータ) (2025-05-23T12:19:18Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。