論文の概要: SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
- arxiv url: http://arxiv.org/abs/2508.04700v1
- Date: Wed, 06 Aug 2025 17:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.868432
- Title: SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
- Title(参考訳): SEAgent: 経験から学ぶ自己進化型コンピュータ利用エージェント
- Authors: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang,
- Abstract要約: 本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 71.82719117238307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents to autonomously master novel software environments via experiential learning, where agents explore new software, learn through iterative trial-and-error, and progressively tackle auto-generated tasks organized from simple to complex. To achieve this goal, we design a World State Model for step-wise trajectory assessment, along with a Curriculum Generator that generates increasingly diverse and challenging tasks. The agent's policy is updated through experiential learning, comprised of adversarial imitation of failure actions and Group Relative Policy Optimization (GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist training strategy that integrates individual experiential insights from specialist agents, facilitating the development of a stronger generalist CUA capable of continuous autonomous evolution. This unified agent ultimately achieves performance surpassing ensembles of individual specialist agents on their specialized software. We validate the effectiveness of SEAgent across five novel software environments within OS-World. Our approach achieves a significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a competitive open-source CUA, i.e., UI-TARS.
- Abstract(参考訳): コンピュータ利用エージェント (CUA) としての大型視覚言語モデル (LVLM) の再利用は、主に人間のラベル付きデータによって大きくブレークスルーをもたらした。
しかしながら、これらのモデルは、特に人間のアノテーションを欠いたシナリオにおいて、新しく特別なソフトウェアに苦しむことが多い。
この課題に対処するために, CUAが不慣れなソフトウェアとのインタラクションを通じて自律的に進化することを可能にするエージェント型自己進化フレームワークであるSEAgentを提案する。
実験的な学習では、エージェントが新しいソフトウェアを探索し、反復的な試行錯誤を通じて学び、単純から複雑に編成された自動生成タスクに徐々に取り組みます。
この目標を達成するために、段階的な軌跡評価のための世界状態モデルと、より多様で困難なタスクを生成するカリキュラムジェネレータを設計する。
エージェントのポリシーは実験的な学習を通じて更新され、障害アクションの逆の模倣と、成功したアクションに対するグループ相対ポリシー最適化(GRPO)によって構成される。
さらに,専門エージェントからの個々の経験的洞察を統合し,自律的進化が可能なより強力な総合的なCUAの開発を促進する,専門家と一般の訓練戦略を導入する。
この統合エージェントは、最終的に、個々の専門エージェントの特別なソフトウェアにおけるアンサンブルを超えるパフォーマンスを達成する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチでは,競合するオープンソースCUA,すなわちUI-TARSに比べて,11.3%から34.5%という,23.2%の成功率で大幅に向上している。
関連論文リスト
- SEA: Self-Evolution Agent with Step-wise Reward for Computer Use [6.056153018209402]
本稿では,コンピュータ利用のための自己進化エージェント(SEA)を提案し,このエージェントを開発するために,データ生成,強化学習,モデル拡張における創造的手法を提案する。
提案したデータ生成,トレーニング戦略,強化の革新に基づいて,7Bパラメータのみを用いたコンピュータ利用のための自己進化エージェント(SEA)が提供される。
論文 参考訳(メタデータ) (2025-08-06T02:57:22Z) - UI-Evol: Automatic Knowledge Evolving for Computer Use Agents [19.978272700123004]
自律的なGUI知識進化のためのプラグイン・アンド・プレイモジュールであるUI-Evolを提案する。
UI-Evolは、実際のエージェントと環境の相互作用から忠実な客観的なアクションシーケンスを抽出するRetrace Stageと、これらのシーケンスを外部参照と比較することによって既存の知識を洗練するCritique Stageの2つのステージで構成されている。
この結果から,UI-Evolはタスク性能を著しく向上させるだけでなく,コンピュータ利用エージェントの行動標準偏差がこれまで見過ごされていた問題にも対処できることがわかった。
論文 参考訳(メタデータ) (2025-05-28T04:32:05Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent
Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。
ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。
XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文 参考訳(メタデータ) (2024-01-25T07:47:49Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。