論文の概要: Modular and Multi-Path-Aware Offline Benchmarking for Mobile GUI Agents
- arxiv url: http://arxiv.org/abs/2512.12634v1
- Date: Sun, 14 Dec 2025 10:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.354987
- Title: Modular and Multi-Path-Aware Offline Benchmarking for Mobile GUI Agents
- Title(参考訳): モバイルGUIエージェントのためのモジュール型およびマルチパス対応オフラインベンチマーク
- Authors: Youngmin Im, Byeongung Jo, Jaeyoung Wi, Seungwoo Baek, Tae Hoon Min, Joo Hyung Lee, Sangeun Oh, Insik Shin, Sunjae Lee,
- Abstract要約: MobiBenchは、モバイルGUIエージェントのためのモジュール式でマルチパスのオフラインベンチマークフレームワークである。
オフライン設定で高い忠実さ、スケーラブル、再現可能な評価を可能にする。
実験の結果,MobiBench GUIは94.72パーセントのヒト評価者との合意を達成できた。
- 参考スコア(独自算出の注目度): 6.501527187326423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile GUI Agents, AI agents capable of interacting with mobile applications on behalf of users, have the potential to transform human computer interaction. However, current evaluation practices for GUI agents face two fundamental limitations. First, they either rely on single path offline benchmarks or online live benchmarks. Offline benchmarks using static, single path annotated datasets unfairly penalize valid alternative actions, while online benchmarks suffer from poor scalability and reproducibility due to the dynamic and unpredictable nature of live evaluation. Second, existing benchmarks treat agents as monolithic black boxes, overlooking the contributions of individual components, which often leads to unfair comparisons or obscures key performance bottlenecks. To address these limitations, we present MobiBench, the first modular and multi path aware offline benchmarking framework for mobile GUI agents that enables high fidelity, scalable, and reproducible evaluation entirely in offline settings. Our experiments demonstrate that MobiBench achieves 94.72 percent agreement with human evaluators, on par with carefully engineered online benchmarks, while preserving the scalability and reproducibility of static offline benchmarks. Furthermore, our comprehensive module level analysis uncovers several key insights, including a systematic evaluation of diverse techniques used in mobile GUI agents, optimal module configurations across model scales, the inherent limitations of current LFMs, and actionable guidelines for designing more capable and cost efficient mobile agents.
- Abstract(参考訳): ユーザに代わってモバイルアプリケーションと対話できるAIエージェントであるMobile GUI Agentsは、人間のコンピュータインタラクションを変革する可能性がある。
しかし、GUIエージェントの現在の評価慣行は2つの基本的な制限に直面している。
まず、単一のパスのオフラインベンチマークか、オンラインライブベンチマークに依存する。
静的な単一パスの注釈付きデータセットを使用したオフラインベンチマークでは、有効な代替アクションが不公平に罰せられる一方、オンラインベンチマークは、動的で予測不可能なライブ評価の性質のため、スケーラビリティと再現性の低下に悩まされている。
第二に、既存のベンチマークはエージェントをモノリシックなブラックボックスとして扱い、個々のコンポーネントのコントリビューションを見渡す。
これらの制限に対処するため、MobiBenchはモバイルGUIエージェントのための最初のモジュール式かつマルチパス対応のオフラインベンチマークフレームワークであり、オフライン設定で高い忠実さ、スケーラブルで再現可能な評価を可能にする。
我々の実験は、MobiBenchが静的なオフラインベンチマークのスケーラビリティと再現性を保ちながら、慎重に設計されたオンラインベンチマークと同等に、人間の評価者と94.72パーセントの合意を達成していることを示した。
さらに,我々は,移動体GUIエージェントにおける多種多様な手法の体系的評価,モデルスケール間の最適モジュール構成,現在のLFMの本質的限界,より有能で費用対効果の高い移動体エージェントを設計するための実行可能なガイドラインなど,いくつかの重要な知見を明らかにした。
関連論文リスト
- ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks [37.79008306764891]
実世界のタスクは複雑で、複数の有効なソリューションが可能である。
オフラインベンチマークは、1つの事前定義された"ゴールドパス"のみを検証することができる
オンライン動的テストは、実際のデバイスの複雑さと非再現性によって制約される。
本稿では,新しいグラフ構造化ベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-16T12:30:05Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.899782380901314]
VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。
既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。
Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文 参考訳(メタデータ) (2025-05-17T07:58:34Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z) - Mystique: Enabling Accurate and Scalable Generation of Production AI
Benchmarks [2.0315147707806283]
Mystiqueは、プロダクションAIベンチマーク生成のための正確でスケーラブルなフレームワークである。
Mystiqueは、オーバーヘッドランタイムとインスツルメンテーションの労力の観点から、軽量なデータ収集のためにスケーラブルである。
我々は,本手法をいくつかの実運用AIモデルで評価し,Mystiqueで生成されたベンチマークがオリジナルのAIモデルとよく似ていることを示す。
論文 参考訳(メタデータ) (2022-12-16T18:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。