論文の概要: A Survey on (M)LLM-Based GUI Agents
- arxiv url: http://arxiv.org/abs/2504.13865v1
- Date: Thu, 27 Mar 2025 17:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.625247
- Title: A Survey on (M)LLM-Based GUI Agents
- Title(参考訳): M)LLMベースのGUIエージェントに関する調査
- Authors: Fei Tang, Haolei Xu, Hang Zhang, Siqi Chen, Xingyu Wu, Yongliang Shen, Wenqi Zhang, Guiyang Hou, Zeqi Tan, Yuchen Yan, Kaitao Song, Jian Shao, Weiming Lu, Jun Xiao, Yueting Zhuang,
- Abstract要約: グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。
大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。
本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
- 参考スコア(独自算出の注目度): 62.57899977018417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical User Interface (GUI) Agents have emerged as a transformative paradigm in human-computer interaction, evolving from rule-based automation scripts to sophisticated AI-driven systems capable of understanding and executing complex interface operations. This survey provides a comprehensive examination of the rapidly advancing field of LLM-based GUI Agents, systematically analyzing their architectural foundations, technical components, and evaluation methodologies. We identify and analyze four fundamental components that constitute modern GUI Agents: (1) perception systems that integrate text-based parsing with multimodal understanding for comprehensive interface comprehension; (2) exploration mechanisms that construct and maintain knowledge bases through internal modeling, historical experience, and external information retrieval; (3) planning frameworks that leverage advanced reasoning methodologies for task decomposition and execution; and (4) interaction systems that manage action generation with robust safety controls. Through rigorous analysis of these components, we reveal how recent advances in large language models and multimodal learning have revolutionized GUI automation across desktop, mobile, and web platforms. We critically examine current evaluation frameworks, highlighting methodological limitations in existing benchmarks while proposing directions for standardization. This survey also identifies key technical challenges, including accurate element localization, effective knowledge retrieval, long-horizon planning, and safety-aware execution control, while outlining promising research directions for enhancing GUI Agents' capabilities. Our systematic review provides researchers and practitioners with a thorough understanding of the field's current state and offers insights into future developments in intelligent interface automation.
- Abstract(参考訳): グラフィカルユーザインタフェース(GUI)エージェントは、ルールベースの自動化スクリプトから複雑なインターフェース操作を理解し実行可能な高度なAI駆動システムへと進化する、人間とコンピュータのインタラクションにおける変革的なパラダイムとして登場した。
この調査は、LLMベースのGUIエージェントの急速に進歩する分野を包括的に調査し、アーキテクチャの基礎、技術コンポーネント、評価方法論を体系的に分析する。
現代GUIエージェントを構成する4つの基本的構成要素を同定・解析し,(1)包括的インタフェース理解のための多モーダル理解とテキストベース解析を統合した認識システム,(2)内部モデリング,過去の経験,外部情報検索を通じて知識ベースを構築し維持する探索機構,(3)タスク分解と実行のための高度な推論手法を活用する計画フレームワーク,(4)堅牢な安全制御を備えた行動生成を管理するインタラクションシステムである。
これらのコンポーネントの厳密な分析を通じて、大規模な言語モデルとマルチモーダル学習の最近の進歩が、デスクトップ、モバイル、WebプラットフォームにわたるGUI自動化に革命をもたらしたことを明らかにする。
我々は,既存のベンチマークの方法論的制約を強調しつつ,標準化の方向性を提案しながら,現在の評価フレームワークを批判的に検討する。
この調査では,GUIエージェントの能力向上のための有望な研究方向を概説しながら,正確な要素位置決定,効果的な知識検索,長期計画,安全対応実行制御など,重要な技術的課題を明らかにした。
我々の体系的なレビューは、研究者や実践者がこの分野の現状を深く理解し、インテリジェントインターフェース自動化における将来の発展に関する洞察を提供する。
関連論文リスト
- A Summary on GUI Agents with Foundation Models Enhanced by Reinforcement Learning [13.091740188171915]
本稿では,グラフィカルユーザインタフェース(GUI)エージェントの最近の進歩を概説する。
まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。
次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。
本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
論文 参考訳(メタデータ) (2025-04-29T06:55:15Z) - Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems [57.30711059396246]
現在のグラフィカルユーザインタフェース(GUI)基盤システムは、自然言語命令に基づいてインターフェース要素を特定する。
人間の二重システム認識にインスパイアされたFocusは,高速予測と系統解析を組み合わせた新しいGUI基盤フレームワークである。
論文 参考訳(メタデータ) (2025-03-09T06:14:17Z) - AI Agents for Computer Use: A Review of Instruction-based Computer Control, GUI Automation, and Operator Assistants [4.904229981437243]
本総説では,命令型コンピュータ制御の新たな分野について概観する。
問題を定式化し,3つの観点からエージェントを解析する分野の分類を確立する。
計86のCCAと33の関連データセットをレビュー・分類した。
論文 参考訳(メタデータ) (2025-01-27T15:44:02Z) - GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。
GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文 参考訳(メタデータ) (2024-12-18T04:48:28Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z) - GUI Agents with Foundation Models: A Comprehensive Survey [91.97447457550703]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
重要な課題を特定し,今後の研究方向性を提案する。
この調査が(M)LLMベースのGUIエージェントの分野におけるさらなる進歩を促すことを願っている。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。