論文の概要: UI-Evol: Automatic Knowledge Evolving for Computer Use Agents
- arxiv url: http://arxiv.org/abs/2505.21964v2
- Date: Mon, 03 Nov 2025 08:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:22.04245
- Title: UI-Evol: Automatic Knowledge Evolving for Computer Use Agents
- Title(参考訳): UI-Evol: コンピュータ利用エージェントのための知識自動生成
- Authors: Ziyun Zhang, Xinyi Liu, Xiaoyi Zhang, Jun Wang, Gang Chen, Yan Lu,
- Abstract要約: 自律的なGUI知識進化のためのプラグイン・アンド・プレイモジュールであるUI-Evolを提案する。
UI-Evolは、実際のエージェントと環境の相互作用から忠実な客観的なアクションシーケンスを抽出するRetrace Stageと、既存の知識を洗練させるCritique Stageの2つのステージで構成されている。
この結果から,UI-Evolはタスク性能を著しく向上させるだけでなく,コンピュータ利用エージェントの行動標準偏差がこれまで見過ごされていた問題にも対処できることがわかった。
- 参考スコア(独自算出の注目度): 23.21178608410048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: External knowledge has played a crucial role in the recent development of computer use agents. We identify a critical knowledge-execution gap: retrieved knowledge often fails to translate into effective real-world task execution. Our analysis shows even 90% correct knowledge yields only 41% execution success rate. To bridge this gap, we propose UI-Evol, a plug-and-play module for autonomous GUI knowledge evolution. UI-Evol consists of two stages: a Retrace Stage that extracts faithful objective action sequences from actual agent-environment interactions, and a Critique Stage that refines existing knowledge by comparing these sequences against external references. We conduct comprehensive experiments on the OSWorld benchmark with the state-of-the-art Agent S2. Our results demonstrate that UI-Evol not only significantly boosts task performance but also addresses a previously overlooked issue of high behavioral standard deviation in computer use agents, leading to superior performance on computer use tasks and substantially improved agent reliability.
- Abstract(参考訳): 外部知識は近年のコンピュータ利用エージェントの発展において重要な役割を担っている。
抽出された知識は、しばしば実世界の効果的なタスク実行に変換できない。
我々の分析では、90%の正確な知識が実行成功率のわずか41%しか得られていない。
このギャップを埋めるために、我々は自動GUI知識進化のためのプラグイン・アンド・プレイモジュールであるUI-Evolを提案する。
UI-Evolは、実際のエージェントと環境の相互作用から忠実な客観的なアクションシーケンスを抽出するRetrace Stageと、これらのシーケンスを外部参照と比較することによって既存の知識を洗練するCritique Stageの2つのステージで構成されている。
我々はOSWorldベンチマークの総合的な実験を最先端のエージェントS2で実施する。
その結果、UI-Evolはタスク性能を著しく向上させるだけでなく、コンピュータ利用エージェントの行動標準偏差がこれまで見過ごされていた問題にも対処し、コンピュータ利用タスクの性能向上とエージェントの信頼性の向上を実現した。
関連論文リスト
- K^2-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control [73.50217471850658]
K2-Agentは、計画と実行のための宣言的(何)および手続き的(どのように)知識を知り、共進化させることによって、人間のような認知をモデル化する階層的なフレームワークである。
挑戦的なAndroidWorldベンチマークでは、K2-Agentは生とオープンソースのバックボーンのみを使用して76.1%の成功率を達成した。
論文 参考訳(メタデータ) (2026-02-28T14:33:14Z) - Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。
本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4~22%の性能向上を実現した。
論文 参考訳(メタデータ) (2026-02-10T23:06:02Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - EchoTrail-GUI: Building Actionable Memory for GUI Agents via Critic-Guided Self-Exploration [16.593979443102754]
エージェントに動的にアクセス可能なメモリを装備することで、人間のような体験学習を模倣する新しいフレームワークであるEchoTrail-GUIを紹介する。
まず、エージェントがGUI環境と自律的に対話して、成功しているタスク軌跡のキュレートされたデータベースを構築し、報酬モデルで検証する。
第2に、メモリインジェクションの段階では、新しいタスクを受信すると、最も関連性の高い過去の軌跡を効率よく検索して「記憶」として機能させる。
第3に、GUIタスク推論において、これらの記憶は、エージェントの推論と意思決定プロセスに通知するためのコンテキスト内ガイダンスとして注入される。
論文 参考訳(メタデータ) (2025-12-22T13:42:18Z) - Real-Time Procedural Learning From Experience for AI Agents [2.543194442104227]
我々は, eXperiences Indexed by State (PRAXIS) によるエージェントの手続き的リコールを提案する。
PRAXISは行動の結果を記憶し、過去のエピソードの環境および内部状態を現在の状態と共同でマッチングすることでそれらを回収する。
PRAXISは、リアルタイムに生成される検索された状態-反応-反例によるエージェントアクション選択を強化する。
論文 参考訳(メタデータ) (2025-11-27T03:51:49Z) - Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation [57.12284831164602]
モバイルエージェントは膨大な可能性を示しているが、現在のSoTA(State-of-the-art)エージェントは、現実世界、長期的、クロスアプリケーションタスクに不適切な成功率を示す。
本稿では,新しい階層型マルチエージェントフレームワークであるMobile-Agent-RAGを提案する。
論文 参考訳(メタデータ) (2025-11-15T15:22:42Z) - Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing [23.554239007767276]
本稿では,世界初の実世界のエージェント指向ペンテストベンチマークTermiBenchを紹介する。
本稿では,多エージェント浸透試験フレームワークTermiAgentを提案する。
評価において,本研究は最先端のエージェントより優れ,より強力な浸透試験能力を示す。
論文 参考訳(メタデータ) (2025-09-11T07:30:44Z) - SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:58:46Z) - Learning, Reasoning, Refinement: A Framework for Kahneman's Dual-System Intelligence in GUI Agents [15.303188467166752]
人間の動作に類似したGUI自動化のための適応学習を実現することにより,制限を克服する認知フレームワークであるCogniGUIを提案する。
エージェントシステムの一般化と適応性を評価するために,マルチアプリケーションナビゲーション,動的状態遷移,インターフェースのコヒーレンスなどを含む総合ベンチマークScreenSeekを導入する。
実験結果から,現在のGUIグラウンドベンチマークと新たに提案したベンチマークの両方において,CogniGUIが最先端の手法を上回ることが示された。
論文 参考訳(メタデータ) (2025-06-22T06:30:52Z) - LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners [51.518410910148816]
しかし、現在の大規模言語モデル(LLM)ベースのエージェントは、状態のままであり、時間とともに知識を蓄積または転送することができない。
LLMエージェントの生涯学習能力を体系的に評価するために設計された最初の統合ベンチマークであるLifelongAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-17T10:09:11Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - AppAgentX: Evolving GUI Agents as Proficient Smartphone Users [34.70342284525283]
本稿では,インテリジェンスと柔軟性を維持しつつ,操作効率を向上させるGUIエージェントの進化的フレームワークを提案する。
本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。
複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。
論文 参考訳(メタデータ) (2025-03-04T04:34:09Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。
このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。
Llama-3をベースとしたエージェントに実装することで,数ラウンドのフィードバックの後,高度なモデルGPT-4oとDeepSeek-V3をタスクセットで性能向上させる手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-03T17:45:46Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。