論文の概要: OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use
- arxiv url: http://arxiv.org/abs/2508.04482v1
- Date: Wed, 06 Aug 2025 14:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.759739
- Title: OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use
- Title(参考訳): OS Agents: 汎用コンピューティングデバイスのためのMLLMベースのエージェントに関する調査
- Authors: Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu,
- Abstract要約: アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。
マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。
本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
- 参考スコア(独自算出の注目度): 101.57043903478257
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This paper presents a comprehensive survey of these advanced agents, designated as OS Agents. We begin by elucidating the fundamentals of OS Agents, exploring their key components including the environment, observation space, and action space, and outlining essential capabilities such as understanding, planning, and grounding. We then examine methodologies for constructing OS Agents, focusing on domain-specific foundation models and agent frameworks. A detailed review of evaluation protocols and benchmarks highlights how OS Agents are assessed across diverse tasks. Finally, we discuss current challenges and identify promising directions for future research, including safety and privacy, personalization and self-evolution. This survey aims to consolidate the state of OS Agents research, providing insights to guide both academic inquiry and industrial development. An open-source GitHub repository is maintained as a dynamic resource to foster further innovation in this field. We present a 9-page version of our work, accepted by ACL 2025, to provide a concise overview to the domain.
- Abstract(参考訳): アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。
マルチモーダル (multi-modal) 大規模言語モデル ((M)LLM) の進化により、(M)LLMベースのエージェントがコンピュータデバイス (コンピュータや携帯電話) を使って、タスクを自動化するためにオペレーティングシステム (OS) が提供する環境やインターフェース (GUI) を操作するなど、この夢は現実に近づいている。
本稿は,OS Agents に指定されたこれらの先進的エージェントに関する包括的調査である。
まず、OSエージェントの基礎を解明し、環境、観察空間、行動空間を含む主要なコンポーネントを探索し、理解、計画、接地といった重要な機能を概説することから始めます。
次に、ドメイン固有の基盤モデルとエージェントフレームワークに焦点を当てたOSエージェントの構築方法を検討する。
評価プロトコルとベンチマークの詳細なレビューでは、OS Agentがさまざまなタスクでどのように評価されるかを強調している。
最後に、現在の課題について議論し、安全性やプライバシー、パーソナライゼーション、自己進化など、将来の研究に向けた有望な方向性を特定する。
本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
オープンソースGitHubリポジトリは、この分野でさらなるイノベーションを促進するために、動的リソースとして維持されている。
ACL 2025で受理された9ページ版を提示し、その領域を簡潔に概観する。
関連論文リスト
- Towards Pervasive Distributed Agentic Generative AI -- A State of The Art [0.0]
知的エージェントとLarge Language Models(LLM)の急速な進歩は、広範にわたるコンピューティング分野を変革している。
この調査では、LLMエージェントのアーキテクチャコンポーネントの概要と、さまざまなシナリオにおけるデプロイメントと評価について概説する。
リソース制約のあるデバイス上でのローカルおよび分散実行を含む、最先端のエージェントデプロイメント戦略とアプリケーションを強調している。
論文 参考訳(メタデータ) (2025-06-16T10:15:06Z) - Large Action Models: From Inception to Implementation [51.81485642442344]
大規模アクションモデル(LAM)は動的環境内でのアクション生成と実行のために設計されている。
LAMは、AIを受動的言語理解からアクティブなタスク完了に変換する可能性を秘めている。
創発から展開まで,LAMを体系的に開発するための総合的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-13T11:19:56Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-02-12T07:29:22Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。