論文の概要: Does Chain-of-Thought Reasoning Help Mobile GUI Agent? An Empirical Study
- arxiv url: http://arxiv.org/abs/2503.16788v1
- Date: Fri, 21 Mar 2025 01:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:15.710935
- Title: Does Chain-of-Thought Reasoning Help Mobile GUI Agent? An Empirical Study
- Title(参考訳): Chain-of-Thought ReasoningはモバイルGUIエージェントに役立つか? : 実証研究
- Authors: Li Zhang, Longxi Gao, Mengwei Xu,
- Abstract要約: 本稿では,モバイルGUIエージェントにおける推論可能な視覚言語モデル(VLM)の有効性に関する実証的研究を行った。
我々は、Gemini 2.0 FlashとClaude 3.7 Sonnetの2つの商用モデルを評価する。
Claude 3.7 Sonnet推論モデルは、AndroidWorldで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 4.18969040567543
- License:
- Abstract: Reasoning capabilities have significantly improved the performance of vision-language models (VLMs) in domains such as mathematical problem-solving, coding, and visual question-answering. However, their impact on real-world applications remains unclear. This paper presents the first empirical study on the effectiveness of reasoning-enabled VLMs in mobile GUI agents, a domain that requires interpreting complex screen layouts, understanding user instructions, and executing multi-turn interactions. We evaluate two pairs of commercial models--Gemini 2.0 Flash and Claude 3.7 Sonnet--comparing their base and reasoning-enhanced versions across two static benchmarks (ScreenSpot and AndroidControl) and one interactive environment (AndroidWorld). We surprisingly find the Claude 3.7 Sonnet reasoning model achieves state-of-the-art performance on AndroidWorld. However, reasoning VLMs generally offer marginal improvements over non-reasoning models on static benchmarks and even degrade performance in some agent setups. Notably, reasoning and non-reasoning VLMs fail on different sets of tasks, suggesting that reasoning does have an impact, but its benefits and drawbacks counterbalance each other. We attribute these inconsistencies to the limitations of benchmarks and VLMs. Based on the findings, we provide insights for further enhancing mobile GUI agents in terms of benchmarks, VLMs, and their adaptability in dynamically invoking reasoning VLMs. The experimental data are publicly available at https://github.com/LlamaTouch/VLM-Reasoning-Traces.
- Abstract(参考訳): 推論能力は、数学的問題解決、コーディング、視覚的質問応答といった領域における視覚言語モデル(VLM)の性能を大幅に改善した。
しかし、実際の応用への影響はいまだ不明である。
本稿では,複雑な画面レイアウトの解釈,ユーザ指示の理解,マルチターンインタラクションの実行を必要とする,モバイルGUIエージェントにおける推論可能なVLMの有効性に関する実証的研究を行う。
我々は、2つの静的ベンチマーク(ScreenSpotとAndroidControl)と1つのインタラクティブ環境(AndroidWorld)で、ベースと推論強化バージョンを比較検討した。
Claude 3.7 Sonnet推論モデルは、AndroidWorldで最先端のパフォーマンスを実現しています。
しかしながら、VLMの推論は一般に静的ベンチマークの非推論モデルよりも限界的な改善を提供し、一部のエージェント設定では性能が低下する。
特に、推論と非推論のVLMは異なるタスクセットで失敗し、推論には影響があるが、その利点と欠点は互いに相反する。
これらの矛盾は、ベンチマークとVLMの限界に起因している。
この結果に基づいて,ベンチマーク,VLM,および動的推論VLMの適応性の観点から,モバイルGUIエージェントをさらに強化するための知見を提供する。
実験データはhttps://github.com/LlamaTouch/VLM-Reasoning-Tracesで公開されている。
関連論文リスト
- Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題
ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。
我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding [37.15649883702765]
我々は,UI内理解とUI間理解を両立させる2つの事前学習段階を含むMobileVLMを提案する。
モバイル事前トレーニングデータの不足に対処するため、中国製の大規模なモバイルデータセットMobile3Mをスクラッチから構築しました。
実験の結果,MobileVLMはテストセットと公開モバイルベンチマークの両方で優れており,既存のVLMよりも優れていた。
論文 参考訳(メタデータ) (2024-09-23T08:47:54Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Can Feedback Enhance Semantic Grounding in Large Vision-Language Models? [61.899791071654654]
本稿では,視覚言語モデル(VLM)が,フィードバックの「受信」によって意味的接地を改善することができるかどうかを検討する。
適切に刺激すれば、VLMは1ステップと反復の両方でフィードバックを活用できる。
検討したすべての設定において、すべてのモデルにまたがる自動フィードバックを用いて、基底精度を一貫して改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:59:04Z) - NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。
異なるモデルにまたがる推論能力に有意な差が認められた。
また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。