論文の概要: A Summary on GUI Agents with Foundation Models Enhanced by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.20464v1
- Date: Tue, 29 Apr 2025 06:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.776749
- Title: A Summary on GUI Agents with Foundation Models Enhanced by Reinforcement Learning
- Title(参考訳): 強化学習による基礎モデル付きGUIエージェントの概要
- Authors: Jiahao Li, Kaer Huang,
- Abstract要約: 本稿では,グラフィカルユーザインタフェース(GUI)エージェントの最近の進歩を概説する。
まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。
次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。
本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
- 参考スコア(独自算出の注目度): 13.091740188171915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical User Interface (GUI) agents, driven by Multi-modal Large Language Models (MLLMs), have emerged as a promising paradigm for enabling intelligent interaction with digital systems. This paper provides a structured summary of recent advances in GUI agents, focusing on architectures enhanced by Reinforcement Learning (RL). We first formalize GUI agent tasks as Markov Decision Processes and discuss typical execution environments and evaluation metrics. We then review the modular architecture of (M)LLM-based GUI agents, covering Perception, Planning, and Acting modules, and trace their evolution through representative works. Furthermore, we categorize GUI agent training methodologies into Prompt-based, Supervised Fine-Tuning (SFT)-based, and RL-based approaches, highlighting the progression from simple prompt engineering to dynamic policy learning via RL. Our summary illustrates how recent innovations in multimodal perception, decision reasoning, and adaptive action generation have significantly improved the generalization and robustness of GUI agents in complex real-world environments. We conclude by identifying key challenges and future directions for building more capable and reliable GUI agents.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)によって駆動されるGUIエージェントは,デジタルシステムとのインテリジェントなインタラクションを実現するための,有望なパラダイムとして登場した。
本稿では,Reinforcement Learning (RL)によって強化されたアーキテクチャに着目し,GUIエージェントの最近の進歩を概説する。
まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。
次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。
さらに,GUIエージェントのトレーニング手法を,Promptベースのスーパービジョンファインチューニング(SFT)とRLベースのアプローチに分類し,シンプルなプロンプトエンジニアリングからRLによる動的ポリシー学習への進展を強調した。
本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
我々は、より有能で信頼性の高いGUIエージェントを構築する上で、重要な課題と今後の方向性を特定することで結論付ける。
関連論文リスト
- A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。
大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。
本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文 参考訳(メタデータ) (2025-03-27T17:58:31Z) - API Agents vs. GUI Agents: Divergence and Convergence [35.28490346033735]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。
本稿では,それらの分散と潜在的収束を系統的に解析する。
LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-03-14T04:26:21Z) - GUIDE: LLM-Driven GUI Generation Decomposition for Automated Prototyping [55.762798168494726]
印象的なコード生成機能を備えた大規模言語モデル(LLM)は、GUIプロトタイピングを自動化するための有望なアプローチを提供する。
しかし、現在のLLMベースのプロトタイピングソリューションと従来のユーザベースのGUIプロトタイピングアプローチの間にはギャップがある。
プロトタイピングフレームワークであるFigmaにシームレスに統合された新しいLLM駆動GUI生成分解手法であるGUIDEを提案する。
論文 参考訳(メタデータ) (2025-02-28T14:03:53Z) - GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。
GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文 参考訳(メタデータ) (2024-12-18T04:48:28Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z) - GUI Agents with Foundation Models: A Comprehensive Survey [91.97447457550703]
この調査は(M)LLMベースのGUIエージェントに関する最近の研究を集約する。
重要な課題を特定し,今後の研究方向性を提案する。
この調査が(M)LLMベースのGUIエージェントの分野におけるさらなる進歩を促すことを願っている。
論文 参考訳(メタデータ) (2024-11-07T17:28:10Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。