論文の概要: SEA: Self-Evolution Agent with Step-wise Reward for Computer Use
- arxiv url: http://arxiv.org/abs/2508.04037v1
- Date: Wed, 06 Aug 2025 02:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.51357
- Title: SEA: Self-Evolution Agent with Step-wise Reward for Computer Use
- Title(参考訳): SEA: コンピュータ利用のためのステップワイド・リワードによる自己進化エージェント
- Authors: Liang Tang, Shuxian Li, Yuhao Cheng, Yukang Huo, Zhepeng Wang, Yiqiang Yan, Kaer Huang, Yanzhe Jing, Tiaonan Duan,
- Abstract要約: 本稿では,コンピュータ利用のための自己進化エージェント(SEA)を提案し,このエージェントを開発するために,データ生成,強化学習,モデル拡張における創造的手法を提案する。
提案したデータ生成,トレーニング戦略,強化の革新に基づいて,7Bパラメータのみを用いたコンピュータ利用のための自己進化エージェント(SEA)が提供される。
- 参考スコア(独自算出の注目度): 6.056153018209402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer use agent is an emerging area in artificial intelligence that aims to operate the computers to achieve the user's tasks, which attracts a lot of attention from both industry and academia. However, the present agents' performance is far from being used. In this paper, we propose the Self-Evolution Agent (SEA) for computer use, and to develop this agent, we propose creative methods in data generation, reinforcement learning, and model enhancement. Specifically, we first propose an automatic pipeline to generate the verifiable trajectory for training. And then, we propose efficient step-wise reinforcement learning to alleviate the significant computational requirements for long-horizon training. In the end, we propose the enhancement method to merge the grounding and planning ability into one model without any extra training. Accordingly, based on our proposed innovation of data generation, training strategy, and enhancement, we get the Selfevolution Agent (SEA) for computer use with only 7B parameters, which outperforms models with the same number of parameters and has comparable performance to larger ones. We will make the models' weight and related codes open-source in the future.
- Abstract(参考訳): コンピュータ利用エージェントは、ユーザのタスクを達成するためにコンピュータを操作することを目的とした人工知能の新興分野であり、産業と学術の両方から多くの注目を集めている。
しかし、現在のエージェントのパフォーマンスはそれほど使われていない。
本稿では、コンピュータ利用のための自己進化エージェント(SEA)を提案し、このエージェントを開発するために、データ生成、強化学習、モデル強化における創造的手法を提案する。
具体的には,まず,検証可能な軌道を生成するための自動パイプラインを提案する。
そこで本稿では,長期訓練における重要な計算要件を軽減するために,効率的なステップワイド強化学習を提案する。
最後に, 新たな訓練を伴わずに, 接地能力と計画能力を1つのモデルにマージする拡張手法を提案する。
したがって、提案したデータ生成、トレーニング戦略、強化の革新に基づいて、7Bパラメータしか持たないコンピュータ用自己進化エージェント(SEA)が、同じ数のパラメータでモデルを上回っ、より大きなパラメータと同等のパフォーマンスを持つ。
将来、モデルの重みと関連するコードをオープンソースにします。
関連論文リスト
- SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:58:46Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - To Train or Not to Train: Balancing Efficiency and Training Cost in Deep Reinforcement Learning for Mobile Edge Computing [15.079887992932692]
資源を割り当てるDeep Reinforcement Learning (DRL)エージェントをいつトレーニングするかを動的に選択するアルゴリズムを提案する。
トレーニングのオーバーヘッドを伴うシナリオに対して直接適用することができるので,本手法は極めて一般的である。
論文 参考訳(メタデータ) (2024-11-11T16:02:12Z) - Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。
本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。
我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文 参考訳(メタデータ) (2024-03-28T15:22:29Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - TrainerAgent: Customizable and Efficient Model Training through
LLM-Powered Multi-Agent System [14.019244136838017]
TrainerAgentは、タスク、データ、モデル、サーバーエージェントを含むマルチエージェントフレームワークである。
これらのエージェントは、ユーザ定義のタスク、入力データ、要求(例えば、精度、速度)を分析し、データとモデルの両方の観点からそれらを最適化して満足なモデルを取得し、最終的にこれらのモデルをオンラインサービスとしてデプロイする。
本研究は,従来のモデル開発と比較して,効率と品質が向上した望ましいモデルの実現において,大きな進歩を示すものである。
論文 参考訳(メタデータ) (2023-11-11T17:39:24Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Orchestration of Emulator Assisted Mobile Edge Tuning for AI Foundation
Models: A Multi-Agent Deep Reinforcement Learning Approach [10.47302625959368]
我々は,モバイルエッジコンピューティングと基礎モデルを統合した画期的なパラダイムを提示する。
私たちのアプローチの中心はイノベーティブなEmulator-Adapterアーキテクチャであり、基礎モデルを2つの凝集モジュールに分割する。
本稿では,分散環境におけるEmulator-Adapter構造のニーズに合わせて微調整された高度なリソース割り当て機構を提案する。
論文 参考訳(メタデータ) (2023-10-26T15:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。