Fugu-MT 論文翻訳(概要): Large Language Model-Brained GUI Agents: A Survey

論文の概要: Large Language Model-Brained GUI Agents: A Survey

arxiv url: http://arxiv.org/abs/2411.18279v5
Date: Mon, 23 Dec 2024 12:48:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 15:18:31.11739
Title: Large Language Model-Brained GUI Agents: A Survey
Title（参考訳）: 大規模言語モデルを用いたGUIエージェント:サーベイ
Authors: Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Guyue Liu, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang,
Abstract要約: マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
参考スコア（独自算出の注目度）: 42.82362907348966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: GUIs have long been central to human-computer interaction, providing an intuitive and visually-driven way to access and interact with digital systems. The advent of LLMs, particularly multimodal models, has ushered in a new era of GUI automation. They have demonstrated exceptional capabilities in natural language understanding, code generation, and visual processing. This has paved the way for a new generation of LLM-brained GUI agents capable of interpreting complex GUI elements and autonomously executing actions based on natural language instructions. These agents represent a paradigm shift, enabling users to perform intricate, multi-step tasks through simple conversational commands. Their applications span across web navigation, mobile app interactions, and desktop automation, offering a transformative user experience that revolutionizes how individuals interact with software. This emerging field is rapidly advancing, with significant progress in both research and industry. To provide a structured understanding of this trend, this paper presents a comprehensive survey of LLM-brained GUI agents, exploring their historical evolution, core components, and advanced techniques. We address research questions such as existing GUI agent frameworks, the collection and utilization of data for training specialized GUI agents, the development of large action models tailored for GUI tasks, and the evaluation metrics and benchmarks necessary to assess their effectiveness. Additionally, we examine emerging applications powered by these agents. Through a detailed analysis, this survey identifies key research gaps and outlines a roadmap for future advancements in the field. By consolidating foundational knowledge and state-of-the-art developments, this work aims to guide both researchers and practitioners in overcoming challenges and unlocking the full potential of LLM-brained GUI agents.
Abstract（参考訳）: GUIは長い間、人間とコンピュータのインタラクションの中心であり、デジタルシステムにアクセスし、対話するための直感的で視覚的に駆動された方法を提供する。 LLM(特にマルチモーダルモデル)の出現は、GUI自動化の新しい時代を後押ししている。彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。これにより、複雑なGUI要素を解釈し、自然言語命令に基づいて自律的にアクションを実行することができる、LLM-brained GUIエージェントの新世代の道を開いた。これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。彼らのアプリケーションは、Webナビゲーション、モバイルアプリのインタラクション、デスクトップオートメーションにまたがって、個人がソフトウェアと対話する方法に革命をもたらす、変革的なユーザエクスペリエンスを提供する。この新興分野は急速に進歩し、研究と産業の両方で大きな進歩を遂げている。この傾向の構造化された理解のために,本論文では,LLM-brained GUIエージェントの総合的な調査を行い,その歴史進化,コアコンポーネント,高度な技術について考察する。既存のGUIエージェントフレームワーク、専門的なGUIエージェントを訓練するためのデータの収集と利用、GUIタスクに適した大規模なアクションモデルの開発、それらの有効性を評価するために必要な評価指標とベンチマークなどの研究課題に対処する。さらに,これらのエージェントを利用した新しいアプリケーションについても検討する。詳細な分析を通じて、この調査は重要な研究ギャップを特定し、今後の分野の進歩のロードマップを概説する。本研究は,基礎知識と最先端の開発を統合することで,研究者と実践者の両方が課題を克服し,LLM脳GUIエージェントの潜在能力を最大限に活用することを目的としている。

関連論文リスト

A Summary on GUI Agents with Foundation Models Enhanced by Reinforcement Learning [13.091740188171915]
本稿では,グラフィカルユーザインタフェース(GUI)エージェントの最近の進歩を概説する。まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
論文参考訳（メタデータ） (2025-04-29T06:55:15Z)
A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文参考訳（メタデータ） (2025-03-27T17:58:31Z)
API Agents vs. GUI Agents: Divergence and Convergence [37.13923771130588]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。本稿では,それらの分散と潜在的収束を系統的に解析する。 LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文参考訳（メタデータ） (2025-03-14T04:26:21Z)
GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文参考訳（メタデータ） (2024-12-18T04:48:28Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
GUI Agents with Foundation Models: A Comprehensive Survey [52.991688542729385]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。データ、フレームワーク、アプリケーションにおける重要なイノベーションを強調します。本稿では, (M)LLM ベースの GUI エージェントの分野におけるさらなる発展を期待する。
論文参考訳（メタデータ） (2024-11-07T17:28:10Z)
GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文参考訳（メタデータ） (2024-06-17T08:30:55Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM [0.0]
本稿では,GUIの理解と基盤化の領域に革命をもたらすために,MLLM (Multimodal Large Language Model) を巧みに構築した V-Zen について述べる。 V-Zenは、効率的な接地と次のアクション予測のための新しいベンチマークを確立する。 V-ZenとGUIDEの統合の成功は、マルチモーダルAI研究における新たな時代の幕開けを告げ、インテリジェントで自律的なコンピューティング体験への扉を開く。
論文参考訳（メタデータ） (2024-05-24T08:21:45Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。