論文の概要: Large Language Model-Brained GUI Agents: A Survey
- arxiv url: http://arxiv.org/abs/2411.18279v5
- Date: Mon, 23 Dec 2024 12:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:18.391761
- Title: Large Language Model-Brained GUI Agents: A Survey
- Title(参考訳): 大規模言語モデルを用いたGUIエージェント:サーベイ
- Authors: Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Guyue Liu, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang,
- Abstract要約: マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
- 参考スコア(独自算出の注目度): 42.82362907348966
- License:
- Abstract: GUIs have long been central to human-computer interaction, providing an intuitive and visually-driven way to access and interact with digital systems. The advent of LLMs, particularly multimodal models, has ushered in a new era of GUI automation. They have demonstrated exceptional capabilities in natural language understanding, code generation, and visual processing. This has paved the way for a new generation of LLM-brained GUI agents capable of interpreting complex GUI elements and autonomously executing actions based on natural language instructions. These agents represent a paradigm shift, enabling users to perform intricate, multi-step tasks through simple conversational commands. Their applications span across web navigation, mobile app interactions, and desktop automation, offering a transformative user experience that revolutionizes how individuals interact with software. This emerging field is rapidly advancing, with significant progress in both research and industry. To provide a structured understanding of this trend, this paper presents a comprehensive survey of LLM-brained GUI agents, exploring their historical evolution, core components, and advanced techniques. We address research questions such as existing GUI agent frameworks, the collection and utilization of data for training specialized GUI agents, the development of large action models tailored for GUI tasks, and the evaluation metrics and benchmarks necessary to assess their effectiveness. Additionally, we examine emerging applications powered by these agents. Through a detailed analysis, this survey identifies key research gaps and outlines a roadmap for future advancements in the field. By consolidating foundational knowledge and state-of-the-art developments, this work aims to guide both researchers and practitioners in overcoming challenges and unlocking the full potential of LLM-brained GUI agents.
- Abstract(参考訳): GUIは長い間、人間とコンピュータのインタラクションの中心であり、デジタルシステムにアクセスし、対話するための直感的で視覚的に駆動された方法を提供する。
LLM(特にマルチモーダルモデル)の出現は、GUI自動化の新しい時代を後押ししている。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これにより、複雑なGUI要素を解釈し、自然言語命令に基づいて自律的にアクションを実行することができる、LLM-brained GUIエージェントの新世代の道を開いた。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
彼らのアプリケーションは、Webナビゲーション、モバイルアプリのインタラクション、デスクトップオートメーションにまたがって、個人がソフトウェアと対話する方法に革命をもたらす、変革的なユーザエクスペリエンスを提供する。
この新興分野は急速に進歩し、研究と産業の両方で大きな進歩を遂げている。
この傾向の構造化された理解のために,本論文では,LLM-brained GUIエージェントの総合的な調査を行い,その歴史進化,コアコンポーネント,高度な技術について考察する。
既存のGUIエージェントフレームワーク、専門的なGUIエージェントを訓練するためのデータの収集と利用、GUIタスクに適した大規模なアクションモデルの開発、それらの有効性を評価するために必要な評価指標とベンチマークなどの研究課題に対処する。
さらに,これらのエージェントを利用した新しいアプリケーションについても検討する。
詳細な分析を通じて、この調査は重要な研究ギャップを特定し、今後の分野の進歩のロードマップを概説する。
本研究は,基礎知識と最先端の開発を統合することで,研究者と実践者の両方が課題を克服し,LLM脳GUIエージェントの潜在能力を最大限に活用することを目的としている。
関連論文リスト
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - GUI Agents with Foundation Models: A Comprehensive Survey [52.991688542729385]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。
本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z) - V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM [0.0]
本稿では,GUIの理解と基盤化の領域に革命をもたらすために,MLLM (Multimodal Large Language Model) を巧みに構築した V-Zen について述べる。
V-Zenは、効率的な接地と次のアクション予測のための新しいベンチマークを確立する。
V-ZenとGUIDEの統合の成功は、マルチモーダルAI研究における新たな時代の幕開けを告げ、インテリジェントで自律的なコンピューティング体験への扉を開く。
論文 参考訳(メタデータ) (2024-05-24T08:21:45Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。