論文の概要: OSExpert: Computer-Use Agents Learning Professional Skills via Exploration
- arxiv url: http://arxiv.org/abs/2603.07978v1
- Date: Mon, 09 Mar 2026 05:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.509433
- Title: OSExpert: Computer-Use Agents Learning Professional Skills via Exploration
- Title(参考訳): OSExpert: コンピュータ利用エージェントがプロのスキルを探索して学ぶ
- Authors: Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji,
- Abstract要約: 汎用コンピュータ利用エージェントは、人間の専門家ほど役に立たない。
本研究では,環境の単位関数を探索し,検証するための深度優先探索アルゴリズムを提案する。
エージェントは、合成タスクのカリキュラムを自己構築するために、ユニットスキル間の構成性を利用する。
- 参考スコア(独自算出の注目度): 55.660669638732024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose computer-use agents have shown impressive performance across diverse digital environments. However, our new benchmark, OSExpert-Eval, indicates they remain far less helpful than human experts. Although inference-time scaling enables adaptation, these agents complete complex tasks inefficiently with degraded performance, transfer poorly to unseen UIs, and struggle with fine-grained action sequences. To solve the problem, we introduce a GUI-based depth-first search (GUI-DFS) exploration algorithm to comprehensively explore and verify an environment's unit functions. The agent then exploits compositionality between unit skills to self-construct a curriculum for composite tasks. To support fine-grained actions, we curate a database of action primitives for agents to discover during exploration; these are saved as a skill set once the exploration is complete. We use the learned skills to improve the agent's performance and efficiency by (1) enriching agents with ready-to-use procedural knowledge, allowing them to plan only once for long trajectories and generate accurate actions, and (2) enabling them to end inference-time scaling earlier by realizing their boundary of capabilities. Extensive experiments show that our environment-learned agent takes a meaningful step toward expert-level computer use, achieving a around 20 percent performance gain on OSExpert-Eval and closing the efficiency gap to humans by around 80 percent
- Abstract(参考訳): 汎用コンピュータ利用エージェントは、様々なデジタル環境において印象的な性能を示している。
しかし、私たちの新しいベンチマークであるOSExpert-Evalは、人間の専門家ほど役に立たないことを示しています。
推論時間のスケーリングは適応を可能にするが、これらのエージェントは、劣化したパフォーマンスで非効率に複雑なタスクを完了し、目に見えないUIに貧弱に転送し、きめ細かいアクションシーケンスで苦労する。
この問題を解決するために,GUI-DFS探索アルゴリズムを導入し,環境の単位関数を包括的に探索し検証する。
エージェントは、合成タスクのカリキュラムを自己構築するために、ユニットスキル間の構成性を利用する。
詳細な動作を支援するため,探索中にエージェントが発見するためのアクションプリミティブのデータベースをキュレートする。
学習した技術は,(1)使い慣れた手続き的知識を持つエージェントを豊かにすることにより,エージェントのパフォーマンスと効率を向上させるため,長い行程のみを計画し,正確な行動を生成するとともに,(2)能力の境界を達成して推論時間のスケーリングを早期に終わらせることを可能にする。
大規模な実験によると、我々の環境学習エージェントは、専門家レベルのコンピュータ利用に向けて有意義な一歩を踏み出し、OSExpert-Evalで約20%の性能向上を達成し、人間の効率ギャップを約80%短縮した。
関連論文リスト
- Boosting Deep Reinforcement Learning with Semantic Knowledge for Robotic Manipulators [2.6913398550088483]
Deep Reinforcement Learning (DRL)は、複雑なシーケンシャルな意思決定問題を解決するための強力なフレームワークである。
我々は、知識グラフ埋め込み(KGE)という形で意味知識とDRLの新たな統合を提案する。
我々のアーキテクチャは、KGEと視覚的観察を組み合わせることで、エージェントがトレーニング中に環境知識を活用できるようにする。
論文 参考訳(メタデータ) (2026-01-23T16:14:28Z) - Experience-Driven Exploration for Efficient API-Free AI Agents [34.38668336861503]
KG-Agentは、エージェントの生のピクセルレベルのインタラクションを永続的なState-Action Knowledge Graphに構造化する、経験駆動学習フレームワークである。
KG-Agentは、機能的に類似しているが視覚的に異なるGUI状態をリンクすることで、非効率な探索を克服する。
我々は,最先端手法よりも探索効率と戦略深度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-10-17T02:53:06Z) - UI-Evol: Automatic Knowledge Evolving for Computer Use Agents [23.21178608410048]
自律的なGUI知識進化のためのプラグイン・アンド・プレイモジュールであるUI-Evolを提案する。
UI-Evolは、実際のエージェントと環境の相互作用から忠実な客観的なアクションシーケンスを抽出するRetrace Stageと、既存の知識を洗練させるCritique Stageの2つのステージで構成されている。
この結果から,UI-Evolはタスク性能を著しく向上させるだけでなく,コンピュータ利用エージェントの行動標準偏差がこれまで見過ごされていた問題にも対処できることがわかった。
論文 参考訳(メタデータ) (2025-05-28T04:32:05Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。