論文の概要: CUA-Skill: Develop Skills for Computer Using Agent
- arxiv url: http://arxiv.org/abs/2601.21123v2
- Date: Mon, 02 Feb 2026 23:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.686944
- Title: CUA-Skill: Develop Skills for Computer Using Agent
- Title(参考訳): CUAスキル:エージェントを用いたコンピュータのスキル開発
- Authors: Tianyi Chen, Yinheng Li, Michael Solodko, Sen Wang, Nan Jiang, Tingyuan Cui, Junheng Hao, Jongwoo Ko, Sara Abdali, Leon Xu, Suzhen Zheng, Hao Fan, Pashmina Cameron, Justin Wagle, Kazuhito Koishida,
- Abstract要約: コンピュータを利用したエージェントスキルベースであるCUA-Skillを導入し,人間のコンピュータ利用知識をスキルとして符号化する。
我々は、動的スキル検索、引数のインスタンス化、メモリ認識障害回復をサポートする、エンドツーエンドのコンピュータ利用エージェントであるCUA-Skill Agentを構築した。
その結果、CUA-Skillは、エンドツーエンドのベンチマークで実行の成功率と堅牢性を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 48.87870942314034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-Using Agents (CUAs) aim to autonomously operate computer systems to complete real-world tasks. However, existing agentic systems remain difficult to scale and lag behind human performance. A key limitation is the absence of reusable and structured skill abstractions that capture how humans interact with graphical user interfaces and how to leverage these skills. We introduce CUA-Skill, a computer-using agentic skill base that encodes human computer-use knowledge as skills coupled with parameterized execution and composition graphs. CUA-Skill is a large-scale library of carefully engineered skills spanning common Windows applications, serving as a practical infrastructure and tool substrate for scalable, reliable agent development. Built upon this skill base, we construct CUA-Skill Agent, an end-to-end computer-using agent that supports dynamic skill retrieval, argument instantiation, and memory-aware failure recovery. Our results demonstrate that CUA-Skill substantially improves execution success rates and robustness on challenging end-to-end agent benchmarks, establishing a strong foundation for future computer-using agent development. On WindowsAgentArena, CUA-Skill Agent achieves state-of-the-art 57.5% (best of three) successful rate while being significantly more efficient than prior and concurrent approaches. The project page is available at https://microsoft.github.io/cua_skill/.
- Abstract(参考訳): CUA(Computer-Using Agents)は、現実のタスクを遂行するためにコンピュータシステムを自律的に運用することを目的としたエージェントである。
しかし、既存のエージェントシステムはスケールが難しく、人間のパフォーマンスが遅れている。
重要な制限は、人間がグラフィカルなユーザーインターフェイスとどのように相互作用するか、そしてこれらのスキルをどのように活用するかをキャプチャする再利用可能な、構造化されたスキル抽象化がないことである。
本稿では,コンピュータを用いたエージェントスキルベースであるCUA-Skillを紹介した。
CUAスキル(CUA-Skill)は、Windowsアプリケーションにまたがる高度に設計されたスキルのライブラリで、スケーラブルで信頼性の高いエージェント開発のための実用的なインフラとツールの基盤として機能する。
このスキルベース上に構築されたCUA-Skill Agentは、動的スキル検索、引数のインスタンス化、メモリ認識障害回復をサポートするエンド・ツー・エンドのコンピュータ・ユース・エージェントである。
その結果,CUA-Skillは,エンドツーエンドのエージェントベンチマークにおいて,実行の成功率と堅牢性を大幅に向上させ,将来のコンピュータ利用エージェント開発のための強力な基盤を確立した。
WindowsAgentArenaでは、CUAスキルエージェントは最先端の57.5%(3つのうちの1つ)の成功率を達成すると同時に、前と同時のアプローチよりもはるかに効率的である。
プロジェクトのページはhttps://microsoft.github.io/cua_skill/.comで公開されている。
関連論文リスト
- Computer-Use Agents as Judges for Generative User Interface [142.75272102498806]
ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。
ほとんどのGUIは、人間が効率的にタスクを実行するのに不要な人間指向の動作を採用するために設計されている。
CUA は Coder でGUI の自動設計を支援することができるだろうか?
論文 参考訳(メタデータ) (2025-11-19T16:00:02Z) - PolySkill: Learning Generalizable Skills Through Polymorphic Abstraction [20.687269802717893]
新しいフレームワークであるPolySkillを導入し、エージェントが一般化可能な構成スキルを学習できるようにする。
実験の結果,本手法はWebサイトにおけるスキルの再利用を1.7倍に改善することがわかった。
エージェントが自身の目標を特定して洗練させることで、PolySkillはエージェントのより良いカリキュラムを学ぶ能力を高める。
論文 参考訳(メタデータ) (2025-10-17T17:56:00Z) - Secure and Efficient Access Control for Computer-Use Agents via Context Space [11.077973600902853]
CSAgentは、コンピュータ利用エージェントのためのシステムレベルの静的ポリシーベースのアクセス制御フレームワークである。
我々はCSAgentの実装と評価を行い、99.36%以上の攻撃に対して防御に成功し、パフォーマンスオーバーヘッドは6.83%に過ぎなかった。
論文 参考訳(メタデータ) (2025-09-26T12:19:27Z) - OpenCUA: Open Foundations for Computer-Use Agents [74.61449905487565]
コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル
我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。
我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2025-08-12T17:52:32Z) - Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents [30.253353551910404]
コンピュータ利用エージェントは、コンピュータやモバイルデバイスのグラフィカルユーザインタフェース(GUI)と直接対話することで、デジタルタスクを自動化する。
本稿では,様々なジェネラリストおよびスペシャリストモデルにまたがって認知的責任を委譲する新しい構成フレームワークであるAgens S2を紹介する。
Agent S2は、3つの著名なコンピュータ使用ベンチマーク上でのSOTA(State-of-the-art)のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-04-01T15:40:27Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Cradle: Empowering Foundation Agents Towards General Computer Control [80.02794667853045]
GCCに向けた予備的な試みとして,モジュール型かつフレキシブルなLMM駆動フレームワークであるCradleを紹介した。
Cradleは入力スクリーンショットを理解し、低レベルキーボードと高レベルプランニング後のマウス制御のために実行可能なコードを出力することができる。
Cradleは、これまで探索されていなかった4つの商用ビデオゲーム、5つのソフトウェアアプリケーション、そして包括的なベンチマークであるOSWorldで、目覚ましい一般化性と印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-03-05T18:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。