論文の概要: AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild
- arxiv url: http://arxiv.org/abs/2602.11750v1
- Date: Thu, 12 Feb 2026 09:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.746205
- Title: AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild
- Title(参考訳): AmbiBench: ワンショット命令以外のモバイルGUIエージェントのベンチマーク
- Authors: Jiazheng Sun, Mingxuan Li, Yingying Zhang, Jiayang Niu, Yachen Wu, Ruihan Jin, Shuyu Lei, Pengrongrui Tan, Zongyu Zhang, Ruoyi Wang, Jiachen Yang, Boyu Yang, Jiacheng Liu, Xin Peng,
- Abstract要約: 本稿では,一方向の指示から双方向の意図のアライメントへ評価をシフトするために,指示明細の分類を取り入れた最初のベンチマークであるAmbiBenchを紹介する。
厳密なレビュープロトコルの下で,25のアプリケーションにまたがる240の生態学的に有効なタスクの厳密なデータセットを構築した。
また,MLLM-as-a-judgeマルチエージェントアーキテクチャを利用した自動フレームワークであるMUSEを開発した。
- 参考スコア(独自算出の注目度): 30.138230316314534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks are paramount for gauging progress in the domain of Mobile GUI Agents. In practical scenarios, users frequently fail to articulate precise directives containing full task details at the onset, and their expressions are typically ambiguous. Consequently, agents are required to converge on the user's true intent via active clarification and interaction during execution. However, existing benchmarks predominantly operate under the idealized assumption that user-issued instructions are complete and unequivocal. This paradigm focuses exclusively on assessing single-turn execution while overlooking the alignment capability of the agent. To address this limitation, we introduce AmbiBench, the first benchmark incorporating a taxonomy of instruction clarity to shift evaluation from unidirectional instruction following to bidirectional intent alignment. Grounded in Cognitive Gap theory, we propose a taxonomy of four clarity levels: Detailed, Standard, Incomplete, and Ambiguous. We construct a rigorous dataset of 240 ecologically valid tasks across 25 applications, subject to strict review protocols. Furthermore, targeting evaluation in dynamic environments, we develop MUSE (Mobile User Satisfaction Evaluator), an automated framework utilizing an MLLM-as-a-judge multi-agent architecture. MUSE performs fine-grained auditing across three dimensions: Outcome Effectiveness, Execution Quality, and Interaction Quality. Empirical results on AmbiBench reveal the performance boundaries of SoTA agents across different clarity levels, quantify the gains derived from active interaction, and validate the strong correlation between MUSE and human judgment. This work redefines evaluation standards, laying the foundation for next-generation agents capable of truly understanding user intent.
- Abstract(参考訳): ベンチマークは、Mobile GUI Agentsのドメインの進捗を計測する上で最重要である。
実際のシナリオでは、ユーザは、開始時にタスクの詳細を含む正確なディレクティブを明確化することができず、その表現は通常曖昧である。
その結果、エージェントは実行中にアクティブな明確化とインタラクションを通じて、ユーザの真の意図に収束することが要求される。
しかし、既存のベンチマークは主に、ユーザ発行命令が完全で不公平であるという理想的な仮定の下で運用されている。
このパラダイムは、エージェントのアライメント能力を見越しながら、単一ターンの実行を評価することのみに焦点を当てている。
この制限に対処するため、AmbiBenchは、指示明細の分類を取り入れた最初のベンチマークである。
認知ギャップ理論に基づいて, 詳細, 標準, 不完全, 曖昧の4段階の分類法を提案する。
厳密なレビュープロトコルの下で,25のアプリケーションにまたがる240の生態学的に有効なタスクの厳密なデータセットを構築した。
さらに、動的環境における評価をターゲットとして、MLLM-as-a-judgeマルチエージェントアーキテクチャを利用した自動フレームワークであるMUSE(Mobile User Satisfaction Evaluator)を開発する。
MUSEは、アウトカム効果、実行品質、相互作用品質の3つの側面にわたるきめ細かい監査を行います。
AmbiBench の実証実験の結果,異なる明瞭度レベルにわたる SoTA エージェントの性能境界を明らかにし,アクティブな相互作用から得られる利得を定量化し,MUSE と人的判断の強い相関を検証した。
この研究は評価基準を再定義し、ユーザー意図を真に理解できる次世代エージェントの基礎を築いた。
関連論文リスト
- Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series [36.88936933010042]
OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。
6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。
本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T08:27:58Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。
本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-13T17:34:35Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。