論文の概要: LiteCUA: Computer as MCP Server for Computer-Use Agent on AIOS
- arxiv url: http://arxiv.org/abs/2505.18829v1
- Date: Sat, 24 May 2025 18:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.685117
- Title: LiteCUA: Computer as MCP Server for Computer-Use Agent on AIOS
- Title(参考訳): LiteCUA: AIOS上のコンピュータ利用エージェントのためのMPPサーバとしてのコンピュータ
- Authors: Kai Mei, Xi Zhu, Hang Gao, Shuhang Lin, Yongfeng Zhang,
- Abstract要約: AIOS 1.0は、環境コンテキスト化によるコンピュータ利用エージェント機能の向上を目的とした、新しいプラットフォームである。
We introduced LiteCUA, a lightweight computer-use agent built on AIOS 1.0, which is a 14.66% success rate on the OSWorld benchmark。
この結果から,言語モデルのための文脈的コンピュータ環境が,より有能なコンピュータ利用エージェントの開発に有望な方向を示すことが示唆された。
- 参考スコア(独自算出の注目度): 37.35501264841289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AIOS 1.0, a novel platform designed to advance computer-use agent (CUA) capabilities through environmental contextualization. While existing approaches primarily focus on building more powerful agent frameworks or enhancing agent models, we identify a fundamental limitation: the semantic disconnect between how language models understand the world and how computer interfaces are structured. AIOS 1.0 addresses this challenge by transforming computers into contextual environments that language models can natively comprehend, implementing a Model Context Protocol (MCP) server architecture to abstract computer states and actions. This approach effectively decouples interface complexity from decision complexity, enabling agents to reason more effectively about computing environments. To demonstrate our platform's effectiveness, we introduce LiteCUA, a lightweight computer-use agent built on AIOS 1.0 that achieves a 14.66% success rate on the OSWorld benchmark, outperforming several specialized agent frameworks despite its simple architecture. Our results suggest that contextualizing computer environments for language models represents a promising direction for developing more capable computer-use agents and advancing toward AI that can interact with digital systems. The source code of LiteCUA is available at https://github.com/agiresearch/LiteCUA, and it is also integrated into the AIOS main branch as part of AIOS at https://github.com/agiresearch/AIOS.
- Abstract(参考訳): 我々は,環境コンテキスト化によるコンピュータ利用エージェント(CUA)機能向上を目的とした,新しいプラットフォームであるAIOS 1.0を提案する。
既存のアプローチは主に、より強力なエージェントフレームワークの構築やエージェントモデルの拡張に焦点を当てていますが、基本的な制限は、言語モデルが世界を理解する方法と、コンピュータインターフェースがどのように構成されているかのセマンティックな切り離しです。
AIOS 1.0は、コンピュータを言語モデルがネイティブに理解可能なコンテキスト環境に変換することでこの問題に対処し、コンピュータの状態と動作を抽象化するためのモデルコンテキストプロトコル(MCP)サーバアーキテクチャを実装した。
このアプローチは、インターフェイスの複雑さと決定の複雑さを効果的に分離し、エージェントがコンピュータ環境についてより効果的に推論できるようにする。
これはAIOS 1.0上に構築された軽量コンピュータ利用エージェントで、OSWorldベンチマークで14.66%の成功率を達成した。
この結果から,言語モデルのための文脈的コンピュータ環境は,より有能なコンピュータエージェントを開発し,デジタルシステムと対話可能なAIに向かって進む上で,有望な方向性を示すことが示唆された。
LiteCUAのソースコードはhttps://github.com/agiresearch/LiteCUAで入手でき、AIOSのメインブランチとしてhttps://github.com/agiresearch/AIOSに統合されている。
関連論文リスト
- InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。
ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文 参考訳(メタデータ) (2025-05-16T05:43:27Z) - UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。
我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。
我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文 参考訳(メタデータ) (2025-04-20T13:04:43Z) - Contextual Augmented Multi-Model Programming (CAMP): A Hybrid Local-Cloud Copilot Framework [8.28588489551341]
本稿では、Retrieval-Augmented Generation(RAG)を用いた局所モデルからなるマルチモデルAI支援プログラミングフレームワークであるCAMPを提案する。
RAGは、コンテキスト認識プロンプト構築を容易にするために、クラウドモデルからコンテキスト情報を取得する。
この方法論は、Appleソフトウェアエコシステム向けに開発されたAI支援プログラミングツールであるCopilot for Xcodeで実現されている。
論文 参考訳(メタデータ) (2024-10-20T04:51:24Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-02-12T07:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。