Fugu-MT 論文翻訳(概要): AppAgentX: Evolving GUI Agents as Proficient Smartphone Users

論文の概要: AppAgentX: Evolving GUI Agents as Proficient Smartphone Users

arxiv url: http://arxiv.org/abs/2503.02268v1
Date: Tue, 04 Mar 2025 04:34:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:39.094625
Title: AppAgentX: Evolving GUI Agents as Proficient Smartphone Users
Title（参考訳）: AppAgentX: 熟練したスマートフォンユーザとしてGUIエージェントを進化させる
Authors: Wenjia Jiang, Yangyang Zhuang, Chenxi Song, Xu Yang, Chi Zhang,
Abstract要約: 本稿では,インテリジェンスと柔軟性を維持しつつ,操作効率を向上させるGUIエージェントの進化的フレームワークを提案する。本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。
参考スコア（独自算出の注目度）: 6.748218693528572
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Large Language Models (LLMs) have led to the development of intelligent LLM-based agents capable of interacting with graphical user interfaces (GUIs). These agents demonstrate strong reasoning and adaptability, enabling them to perform complex tasks that traditionally required predefined rules. However, the reliance on step-by-step reasoning in LLM-based agents often results in inefficiencies, particularly for routine tasks. In contrast, traditional rule-based systems excel in efficiency but lack the intelligence and flexibility to adapt to novel scenarios. To address this challenge, we propose a novel evolutionary framework for GUI agents that enhances operational efficiency while retaining intelligence and flexibility. Our approach incorporates a memory mechanism that records the agent's task execution history. By analyzing this history, the agent identifies repetitive action sequences and evolves high-level actions that act as shortcuts, replacing these low-level operations and improving efficiency. This allows the agent to focus on tasks requiring more complex reasoning, while simplifying routine actions. Experimental results on multiple benchmark tasks demonstrate that our approach significantly outperforms existing methods in both efficiency and accuracy. The code will be open-sourced to support further research.
Abstract（参考訳）: 近年のLLM(Large Language Models)の進歩により、グラフィカルユーザインタフェース(GUI)との対話が可能なLLMベースのインテリジェントエージェントの開発が進められている。これらのエージェントは強い推論と適応性を示し、伝統的に定義されたルールを必要とする複雑なタスクを実行できる。しかし、LSMをベースとしたエージェントのステップバイステップ推論への依存は、特にルーチンタスクにおいて、効率の悪さをもたらすことが多い。対照的に、従来のルールベースのシステムは効率が優れているが、新しいシナリオに適応するための知性と柔軟性が欠けている。この課題に対処するために,知性と柔軟性を維持しつつ,運用効率を向上させるGUIエージェントの進化的フレームワークを提案する。本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。この履歴を分析することで、エージェントは反復的なアクションシーケンスを特定し、ショートカットとして機能するハイレベルなアクションを進化させ、これらの低レベルな操作を置き換え、効率を向上させる。これによりエージェントは、ルーチンアクションを簡素化しながら、より複雑な推論を必要とするタスクに集中することができる。複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。コードは、さらなる研究をサポートするためにオープンソース化される予定だ。

関連論文リスト

CoAct-1: Computer-using Agents with Coding as Actions [94.99657662893338]
CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文参考訳（メタデータ） (2025-08-05T21:33:36Z)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文参考訳（メタデータ） (2025-07-04T17:37:15Z)
InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning [6.75641900721385]
大規模言語モデル(LLM)は、複雑なタスクを計画するためのエージェントとしての使用を可能にした。 Retrieval-augmented Generation (RAG) は、検索された情報において、外部データベースをグラウンドジェネレーションに活用することで、新たな機会を提供する。本稿では,これらの課題に対処するためのマルチエージェントメタ強化学習フレームワークであるInstructRAGを提案する。
論文参考訳（メタデータ） (2025-04-17T15:41:39Z)
API Agents vs. GUI Agents: Divergence and Convergence [35.28490346033735]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。本稿では,それらの分散と潜在的収束を系統的に解析する。 LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文参考訳（メタデータ） (2025-03-14T04:26:21Z)
Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文参考訳（メタデータ） (2025-02-18T15:07:06Z)
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文参考訳（メタデータ） (2025-02-04T18:58:31Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。 G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文参考訳（メタデータ） (2024-10-06T10:49:40Z)
Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents [40.86728610906313]
AXISは、ユーザインタフェースアクションよりもアプリケーションプログラミングインターフェース(API)を通してアクションを優先順位付けする、LLMベースの新しいエージェントフレームワークである。 Office Wordでの実験では、AXISはタスク完了時間を65%-70%削減し、認知負荷を38%-53%削減し、精度は97%-98%と人間と比較した。また、すべてのアプリケーションをエージェントに変え、エージェント中心のオペレーティングシステム(Agent OS)への道を開く可能性についても検討している。
論文参考訳（メタデータ） (2024-09-25T17:58:08Z)
CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only [21.054681757006385]
本稿では,スクリーンショット画像のみを通して環境を知覚するエージェントを提案する。大規模言語モデルの推論能力を活用することで,大規模人間の実演データの必要性を解消する。 AgentはMiniWoB++の平均成功率は94.5%、WebShopの平均タスクスコアは62.3である。
論文参考訳（メタデータ） (2024-06-11T05:21:20Z)
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [52.34892973785117]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文参考訳（メタデータ） (2024-03-05T16:39:12Z)
Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文参考訳（メタデータ） (2024-02-27T15:09:20Z)
Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文参考訳（メタデータ） (2024-02-14T14:36:30Z)
ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-20T15:28:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。