論文の概要: Efficient Agent Training for Computer Use
- arxiv url: http://arxiv.org/abs/2505.13909v1
- Date: Tue, 20 May 2025 04:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.737746
- Title: Efficient Agent Training for Computer Use
- Title(参考訳): コンピュータ利用のための効果的なエージェントトレーニング
- Authors: Yanheng He, Jiahe Jin, Pengfei Liu,
- Abstract要約: PC Agent-Eは、大規模な人間のデモンストレーションへの依存を著しく低減する効率的なエージェントトレーニングフレームワークである。
その結果,PC Agent-Eモデルでは141%の相対的改善が得られた。
この結果から,少数の高品質なトラジェクトリデータから,強力なコンピュータ利用能力を刺激できることが示唆された。
- 参考スコア(独自算出の注目度): 22.73437302209673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling up high-quality trajectory data has long been a critical bottleneck for developing human-like computer use agents. We introduce PC Agent-E, an efficient agent training framework that significantly reduces reliance on large-scale human demonstrations. Starting with just 312 human-annotated computer use trajectories, we further improved data quality by synthesizing diverse action decisions with Claude 3.7 Sonnet. Trained on these enriched trajectories, our PC Agent-E model achieved a remarkable 141% relative improvement, surpassing the strong Claude 3.7 Sonnet with extended thinking on WindowsAgentArena-V2, an improved benchmark we also released. Furthermore, PC Agent-E demonstrates strong generalizability to different operating systems on OSWorld. Our findings suggest that strong computer use capabilities can be stimulated from a small amount of high-quality trajectory data.
- Abstract(参考訳): 高品質な軌道データのスケールアップは、人間のようなコンピュータ利用エージェントを開発する上で、長い間重要なボトルネックだった。
大規模人体実験への依存を著しく低減する効率的なエージェント訓練フレームワークであるPC Agent-Eを紹介する。
人間のアノテーションで書かれたコンピュータの使用軌跡をわずか312個から始めると、さまざまなアクション決定をClaude 3.7 Sonnetで合成することで、データ品質をさらに向上する。
これらのリッチな軌道に基づいてトレーニングされたPC Agent-Eモデルは、強力なClaude 3.7 Sonnetを上回り、WindowsAgentArena-V2を改良したベンチマークであるWindowsAgentArena-V2を拡張した。
さらに、PC Agent-EはOSWorld上で異なるオペレーティングシステムに対して強力な一般化性を示す。
この結果から,少数の高品質なトラジェクトリデータから,強力なコンピュータ利用能力を刺激できることが示唆された。
関連論文リスト
- SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience [71.82719117238307]
本稿では,コンピュータ利用エージェントが不慣れなソフトウェアとのインタラクションを通じて進化することを可能にするエージェント型自己進化フレームワークSEAgentを提案する。
我々は、OS-World内の5つの新しいソフトウェア環境におけるSEAgentの有効性を検証する。
当社のアプローチは,競合するオープンソースCUAに比べて,11.3%から34.5%という,23.2%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-06T17:58:46Z) - SEA: Self-Evolution Agent with Step-wise Reward for Computer Use [6.056153018209402]
本稿では,コンピュータ利用のための自己進化エージェント(SEA)を提案し,このエージェントを開発するために,データ生成,強化学習,モデル拡張における創造的手法を提案する。
提案したデータ生成,トレーニング戦略,強化の革新に基づいて,7Bパラメータのみを用いたコンピュータ利用のための自己進化エージェント(SEA)が提供される。
論文 参考訳(メタデータ) (2025-08-06T02:57:22Z) - OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents [6.726770697869473]
我々は、コンピュータ利用AIのフラッグシップベンチマークであるOSWorld上で、コンピュータ利用エージェントの時間的パフォーマンスに関する最初の研究を行う。
計画とリフレクションのための大規模なモデル呼び出しは、全体のレイテンシの大部分を占めています。
次に、OSWorld-HumanというオリジナルのOSWorldデータセットを手動でアノテートしたバージョンを構築します。
論文 参考訳(メタデータ) (2025-06-19T05:26:40Z) - WebDancer: Towards Autonomous Information Seeking Agency [69.33360019344083]
エージェントシステムの最近の進歩は、自律的な多段階研究の可能性を強調している。
データ中心およびトレーニング段階の観点からエージェントを探索するエンドツーエンドのエージェント情報を構築するための凝集パラダイムを提案する。
我々はこのフレームワークを ReAct, WebDancer に基づいた Web エージェントでインスタンス化する。
論文 参考訳(メタデータ) (2025-05-28T17:57:07Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - STEVE: A Step Verification Pipeline for Computer-use Agent Training [84.24814828303163]
STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。
GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。
我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文 参考訳(メタデータ) (2025-03-16T14:53:43Z) - InSTA: Towards Internet-Scale Training For Agents [49.763517682308766]
我々は、人間のアノテーションを使わずに、インターネット規模のエージェントの訓練を容易にするパイプラインを開発した。
Qwen 3 1.7Bをベースとしたエージェントをトレーニングし、WebエージェントとしてフロンティアLLMと競合すると同時に、より小型で高速なエージェントをトレーニングする。
我々のトップエージェントは56.9%の成功率に達し、データ収集ポリシーのQwen 3B、Llama 4 Maverickの235倍、Gemini 2.5 Flashのパフォーマンスの94.7%を上回りました。
論文 参考訳(メタデータ) (2025-02-10T18:54:05Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Human-compatible driving partners through data-regularized self-play reinforcement learning [3.9682126792844583]
HR-PPO(Human-Regularized PPO)は、エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイを通じて訓練されるマルチエージェントアルゴリズムである。
その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2024-03-28T17:56:56Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。