論文の概要: $τ^2$-Bench: Evaluating Conversational Agents in a Dual-Control Environment
- arxiv url: http://arxiv.org/abs/2506.07982v1
- Date: Mon, 09 Jun 2025 17:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.094844
- Title: $τ^2$-Bench: Evaluating Conversational Agents in a Dual-Control Environment
- Title(参考訳): $τ^2$-Bench:デュアルコントロ環境における会話エージェントの評価
- Authors: Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan,
- Abstract要約: AIエージェントの既存のベンチマークは、シングルコントロール環境をシミュレートする。
我々は$tau2$-benchを導入し、エージェントとユーザの両方が、共有された動的な環境で動くツールを活用しています。
特に,エージェントが非ユーザからデュアルコントロールに移行すると,パフォーマンスが著しく低下する。
- 参考スコア(独自算出の注目度): 32.345011712015435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for conversational AI agents simulate single-control environments, where only the AI agent can use tools to interact with the world, while the user remains a passive information provider. This differs from real-world scenarios like technical support, where users need to actively participate in modifying the state of the (shared) world. In order to address this gap, we introduce $\tau^2$-bench, with four key contributions: 1) A novel Telecom dual-control domain modeled as a Dec-POMDP, where both agent and user make use of tools to act in a shared, dynamic environment that tests both agent coordination and communication, 2) A compositional task generator that programmatically creates diverse, verifiable tasks from atomic components, ensuring domain coverage and controlled complexity, 3) A reliable user simulator tightly coupled with the environment, whose behavior is constrained by tools and observable states, improving simulation fidelity, 4) Fine-grained analysis of agent performance through multiple ablations including separating errors arising from reasoning vs communication/coordination. In particular, our experiments show significant performance drops when agents shift from no-user to dual-control, highlighting the challenges of guiding users. Overall, $\tau^2$-bench provides a controlled testbed for agents that must both reason effectively and guide user actions.
- Abstract(参考訳): 既存の会話型AIエージェントのベンチマークは、単一のコントロール環境をシミュレートする。
これは、(共有された)世界の状態を積極的に変更する必要がある技術サポートのような現実的なシナリオとは異なる。
1) エージェントとユーザの両方が、エージェントの協調とコミュニケーションの両方をテストするための共有された動的環境において、ツールを使用するためのツールを使用するDec-POMDP、2) 原子コンポーネントから多種多様な検証可能なタスクをプログラム的に生成し、ドメインのカバレッジと制御の複雑さを保証するコンポジションタスクジェネレータ、3) ツールや観測可能な状態に制約された環境と密結合した信頼性のあるユーザシュレッチ、シミュレーションの精度の向上、4) 推論と通信/コーディネーションによるエラーの分離を含む、エージェントのパフォーマンスのきめ細かい分析。
特に,エージェントが非ユーザからデュアルコントロールに移行すると,パフォーマンスが大幅に低下し,ユーザを誘導する上での課題が浮き彫りになった。
全体として、$\tau^2$-benchは、効果的に推論し、ユーザーアクションを誘導する必要があるエージェントのための制御されたテストベッドを提供する。
関連論文リスト
- Get Experience from Practice: LLM Agents with Record & Replay [16.179801770737892]
本稿では,AIエージェントフレームワークに古典的なレコード再生機構を導入する,Agent Record & Replay(Agent Record & Replay)と呼ばれる新しいパラダイムを提案する。
本稿では,AgentRRにおけるマルチレベル体験抽象化手法とチェック関数機構について述べる。
さらに,AgentRRの複数のアプリケーションモードについて検討し,ユーザ記録タスクのデモ,大規模モデルコラボレーション,プライバシ対応エージェントの実行などを検討した。
論文 参考訳(メタデータ) (2025-05-23T10:33:14Z) - Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。
既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。
Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文 参考訳(メタデータ) (2025-05-17T07:58:34Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - $τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains [43.43344028212623]
$tau$-benchは、ユーザと言語エージェント間の動的会話をエミュレートするベンチマークである。
我々は、会話の最後にデータベースの状態と注釈付きゴール状態を比較する、効率的で忠実な評価プロセスを採用する。
論文 参考訳(メタデータ) (2024-06-17T19:33:08Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - MUG: Interactive Multimodal Grounding on User Interfaces [12.035123646959669]
本稿では,ユーザとエージェントがインタフェース画面上で協調作業を行うマルチモーダルグラウンドのための対話型タスクMUGを提案する。
ユーザがコマンドを与え、エージェントがコマンドに応答する。MUGはエージェントの応答を見る際に、エージェントがそのアクションを洗練または修正するための追加コマンドを与えるように、複数のラウンドのインタラクションを可能にする。
論文 参考訳(メタデータ) (2022-09-29T21:08:18Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。