論文の概要: Beyond Pass or Fail: A Multi-dimensional Benchmark for Mobile UI Navigation
- arxiv url: http://arxiv.org/abs/2501.02863v1
- Date: Mon, 06 Jan 2025 09:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:32.284034
- Title: Beyond Pass or Fail: A Multi-dimensional Benchmark for Mobile UI Navigation
- Title(参考訳): Beyond Pass or Fail: モバイルUIナビゲーションのための多次元ベンチマーク
- Authors: Dezhi Ran, Mengzhou Wu, Hao Yu, Yuetong Li, Jun Ren, Yuan Cao, Xia Zeng, Haochuan Lu, Zexin Xu, Mengqian Xu, Ting Su, Liangchao Yao, Ting Xiong, Wei Yang, Yuetang Deng, Assaf Marron, David Harel, Tao Xie,
- Abstract要約: UIナビゲーションにおける既存モデルの多次元評価のための新しいベンチマークSphinxを提案する。
Sphinxには、不変ベースの検証、知識探索、知識拡張生成など、多次元評価のための包括的なツールキットが含まれている。
我々は、Sphinx上で13の異なる構成を持つ8つの大言語およびマルチモーダルモデルをベンチマークした。評価結果は、これらのモデルすべてがSphinxで苦労し、全てのテスト生成タスクで失敗していることを示している。
- 参考スコア(独自算出の注目度): 15.80796682874844
- License:
- Abstract: Navigating mobile User Interface (UI) applications using large language and vision models based on high-level goal instructions is emerging as an important research field with significant practical implications, such as digital assistants and automated UI testing. To evaluate the effectiveness of existing models in mobile UI navigation, benchmarks are required and widely used in the literature. Although multiple benchmarks have been recently established for evaluating functional correctness being judged as pass or fail, they fail to address the need for multi-dimensional evaluation of the entire UI navigation process. Furthermore, other exiting related datasets lack an automated and robust benchmarking suite, making the evaluation process labor-intensive and error-prone. To address these issues, in this paper, we propose a new benchmark named Sphinx for multi-dimensional evaluation of existing models in practical UI navigation. Sphinx provides a fully automated benchmarking suite that enables reproducibility across real-world mobile apps and employs reliable evaluators to assess model progress. In addition to functional correctness, Sphinx includes comprehensive toolkits for multi-dimensional evaluation, such as invariant-based verification, knowledge probing, and knowledge-augmented generation to evaluate model capabilities including goal understanding, knowledge and planning, grounding, and instruction following, ensuring a thorough assessment of each sub-process in mobile UI navigation. We benchmark 8 large language and multi-modal models with 13 different configurations on Sphinx. Evaluation results show that all these models struggle on Sphinx, and fail on all test generation tasks. Our further analysis of the multi-dimensional evaluation results underscores the current progress and highlights future research directions to improve a model's effectiveness for mobile UI navigation.
- Abstract(参考訳): 大規模言語とビジョンモデルを用いたモバイルユーザインターフェース(UI)アプリケーションのナビゲートは、デジタルアシスタントや自動UIテストなど、重要な実践的意味を持つ研究分野として、注目されている。
モバイルUIナビゲーションにおける既存のモデルの有効性を評価するには,ベンチマークが必要である。
機能的正当性をパスまたはフェールと判断するための複数のベンチマークが最近確立されているが、UIナビゲーションプロセス全体の多次元評価の必要性に対処することはできなかった。
さらに、他のエグジット関連データセットには、自動化された堅牢なベンチマークスイートがないため、評価プロセスは労働集約的でエラーが発生します。
そこで本稿では,既存のUIナビゲーションにおけるモデルの多次元評価のためのSphinxという新しいベンチマークを提案する。
Sphinxは完全に自動化されたベンチマークスイートを提供し、実際のモバイルアプリ間で再現性を提供し、モデルの進捗を評価するために信頼性の高い評価ツールを使用している。
機能的正当性に加えて、Sphinxは、不変ベースの検証、知識探索、知識拡張生成などの多次元評価のための包括的なツールキットが含まれており、目標理解、知識と計画、接地、命令フォローなどを含むモデル機能を評価し、モバイルUIナビゲーションにおける各サブプロセスの徹底的な評価を保証する。
我々はSphinxで13の異なる構成を持つ8つの大言語とマルチモーダルモデルをベンチマークした。
評価結果は、これらのモデルがSphinxで苦労し、すべてのテスト生成タスクで失敗していることを示している。
多次元評価結果のさらなる分析は、現在の進歩を裏付け、モバイルUIナビゲーションにおけるモデルの有効性を改善するための今後の研究の方向性を強調している。
関連論文リスト
- UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models [11.993910471523073]
我々は大手テクノロジー企業から155 FM4SEと997 SE4FMのブログ記事を分析した。
我々は、コード生成が最も顕著なFM4SEタスクであるのに対して、FMは他の多くのSEアクティビティに活用されていることを観察した。
クラウドのデプロイに重点を置いているが、FMを圧縮し、小さなデバイスにデプロイすることへの関心が高まっている。
論文 参考訳(メタデータ) (2024-10-11T17:27:04Z) - MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding [37.15649883702765]
我々は,UI内理解とUI間理解を両立させる2つの事前学習段階を含むMobileVLMを提案する。
モバイル事前トレーニングデータの不足に対処するため、中国製の大規模なモバイルデータセットMobile3Mをスクラッチから構築しました。
実験の結果,MobileVLMはテストセットと公開モバイルベンチマークの両方で優れており,既存のVLMよりも優れていた。
論文 参考訳(メタデータ) (2024-09-23T08:47:54Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices [61.48043339441149]
GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。
履歴再サンプリングモジュールを用いたQwen-VLモデルの微調整により,マルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。
論文 参考訳(メタデータ) (2024-06-12T17:44:26Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [89.07145427268948]
我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - Spotlight: Mobile UI Understanding using Vision-Language Models with a
Focus [9.401663915424008]
本稿では,UIのスクリーンショットと画面上の関心領域のみを入力とする視覚言語モデルを提案する。
実験の結果,本モデルではいくつかのUIタスクにおいてSoTA結果が得られ,従来手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-29T16:45:43Z) - FETA: Towards Specializing Foundation Models for Expert Task
Applications [49.57393504125937]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。
本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文 参考訳(メタデータ) (2022-09-08T08:47:57Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。