Fugu-MT 論文翻訳(概要): LiteCUA: Computer as MCP Server for Computer-Use Agent on AIOS

論文の概要: LiteCUA: Computer as MCP Server for Computer-Use Agent on AIOS

arxiv url: http://arxiv.org/abs/2505.18829v1
Date: Sat, 24 May 2025 18:56:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.685117
Title: LiteCUA: Computer as MCP Server for Computer-Use Agent on AIOS
Title（参考訳）: LiteCUA: AIOS上のコンピュータ利用エージェントのためのMPPサーバとしてのコンピュータ
Authors: Kai Mei, Xi Zhu, Hang Gao, Shuhang Lin, Yongfeng Zhang,
Abstract要約: AIOS 1.0は、環境コンテキスト化によるコンピュータ利用エージェント機能の向上を目的とした、新しいプラットフォームである。 We introduced LiteCUA, a lightweight computer-use agent built on AIOS 1.0, which is a 14.66% success rate on the OSWorld benchmark。この結果から,言語モデルのための文脈的コンピュータ環境が,より有能なコンピュータ利用エージェントの開発に有望な方向を示すことが示唆された。
参考スコア（独自算出の注目度）: 37.35501264841289
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present AIOS 1.0, a novel platform designed to advance computer-use agent (CUA) capabilities through environmental contextualization. While existing approaches primarily focus on building more powerful agent frameworks or enhancing agent models, we identify a fundamental limitation: the semantic disconnect between how language models understand the world and how computer interfaces are structured. AIOS 1.0 addresses this challenge by transforming computers into contextual environments that language models can natively comprehend, implementing a Model Context Protocol (MCP) server architecture to abstract computer states and actions. This approach effectively decouples interface complexity from decision complexity, enabling agents to reason more effectively about computing environments. To demonstrate our platform's effectiveness, we introduce LiteCUA, a lightweight computer-use agent built on AIOS 1.0 that achieves a 14.66% success rate on the OSWorld benchmark, outperforming several specialized agent frameworks despite its simple architecture. Our results suggest that contextualizing computer environments for language models represents a promising direction for developing more capable computer-use agents and advancing toward AI that can interact with digital systems. The source code of LiteCUA is available at https://github.com/agiresearch/LiteCUA, and it is also integrated into the AIOS main branch as part of AIOS at https://github.com/agiresearch/AIOS.
Abstract（参考訳）: 我々は,環境コンテキスト化によるコンピュータ利用エージェント(CUA)機能向上を目的とした,新しいプラットフォームであるAIOS 1.0を提案する。既存のアプローチは主に、より強力なエージェントフレームワークの構築やエージェントモデルの拡張に焦点を当てていますが、基本的な制限は、言語モデルが世界を理解する方法と、コンピュータインターフェースがどのように構成されているかのセマンティックな切り離しです。 AIOS 1.0は、コンピュータを言語モデルがネイティブに理解可能なコンテキスト環境に変換することでこの問題に対処し、コンピュータの状態と動作を抽象化するためのモデルコンテキストプロトコル(MCP)サーバアーキテクチャを実装した。このアプローチは、インターフェイスの複雑さと決定の複雑さを効果的に分離し、エージェントがコンピュータ環境についてより効果的に推論できるようにする。これはAIOS 1.0上に構築された軽量コンピュータ利用エージェントで、OSWorldベンチマークで14.66%の成功率を達成した。この結果から,言語モデルのための文脈的コンピュータ環境は,より有能なコンピュータエージェントを開発し,デジタルシステムと対話可能なAIに向かって進む上で,有望な方向性を示すことが示唆された。 LiteCUAのソースコードはhttps://github.com/agiresearch/LiteCUAで入手でき、AIOSのメインブランチとしてhttps://github.com/agiresearch/AIOSに統合されている。

関連論文リスト

Computer-Using World Model [58.59112582915026]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文参考訳（メタデータ） (2026-02-19T13:48:29Z)
A Layered Protocol Architecture for the Internet of Agents [7.066470610779628]
エージェント通信層(L8)とエージェントセマンティックネゴシエーション層(L9)の2つの新しいレイヤを提案する。 L8はコミュニケーションの構造を形式化し、メッセージエンベロープ、音声アクティベート、対話パターンを標準化する。今日存在しないL9は、コミュニケーションの意味を形式化し、エージェントが"Shared Context"を発見し、交渉し、ロックすることを可能にする。
論文参考訳（メタデータ） (2025-11-24T21:06:14Z)
OpenCUA: Open Foundations for Computer-Use Agents [74.61449905487565]
コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
論文参考訳（メタデータ） (2025-08-12T17:52:32Z)
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
DPO Learning with LLMs-Judge Signal for Computer Use Agents [9.454381108993832]
コンピュータ・ユース・エージェント(CUA)は、グラフィカル・ユーザー・インタフェース(GUI)と自動的に対話してタスクを完了させるシステムである。ローカルマシン上で完全に動作する軽量な視覚言語モデルを開発した。
論文参考訳（メタデータ） (2025-06-03T17:27:04Z)
InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文参考訳（メタデータ） (2025-05-16T05:43:27Z)
UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文参考訳（メタデータ） (2025-04-20T13:04:43Z)
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems [2.2810745411557316]
IntellAgentは、対話型AIシステムを評価するためのスケーラブルでオープンソースのフレームワークである。 IntellAgentは、ポリシー駆動グラフモデリング、リアルイベント生成、対話型ユーザエージェントシミュレーションを組み合わせることで、合成ベンチマークの作成を自動化する。我々の研究は、IntellAgentが、研究と展開の橋渡しの課題に対処することで、会話AIを前進させるための効果的なフレームワークであることを示した。
論文参考訳（メタデータ） (2025-01-19T14:58:35Z)
Contextual Augmented Multi-Model Programming (CAMP): A Hybrid Local-Cloud Copilot Framework [8.28588489551341]
本稿では、Retrieval-Augmented Generation(RAG)を用いた局所モデルからなるマルチモデルAI支援プログラミングフレームワークであるCAMPを提案する。 RAGは、コンテキスト認識プロンプト構築を容易にするために、クラウドモデルからコンテキスト情報を取得する。この方法論は、Appleソフトウェアエコシステム向けに開発されたAI支援プログラミングツールであるCopilot for Xcodeで実現されている。
論文参考訳（メタデータ） (2024-10-20T04:51:24Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。 OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文参考訳（メタデータ） (2024-04-11T17:56:05Z)
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文参考訳（メタデータ） (2024-02-12T07:29:22Z)
LLM as OS, Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem [48.81136793994758]
大規模言語モデル (LLM) は(人工)知能オペレーティングシステム (IOS) またはAIOS (AIOS) として機能する。 LLMの影響はAIアプリケーションレベルに限らず、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすものと期待している。
論文参考訳（メタデータ） (2023-12-06T18:50:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。