論文の概要: OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- arxiv url: http://arxiv.org/abs/2402.07456v1
- Date: Mon, 12 Feb 2024 07:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:22:46.819995
- Title: OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- Title(参考訳): OS-Copilot: 自己改善型汎用コンピュータエージェントを目指して
- Authors: Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu,
Shunyu Yao, Tao Yu and Lingpeng Kong
- Abstract要約: オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
- 参考スコア(独自算出の注目度): 48.29860831901484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous interaction with the computer has been a longstanding challenge
with great potential, and the recent proliferation of large language models
(LLMs) has markedly accelerated progress in building digital agents. However,
most of these agents are designed to interact with a narrow domain, such as a
specific software or website. This narrow focus constrains their applicability
for general computer tasks. To this end, we introduce OS-Copilot, a framework
to build generalist agents capable of interfacing with comprehensive elements
in an operating system (OS), including the web, code terminals, files,
multimedia, and various third-party applications. We use OS-Copilot to create
FRIDAY, a self-improving embodied agent for automating general computer tasks.
On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods
by 35%, showcasing strong generalization to unseen applications via accumulated
skills from previous tasks. We also present numerical and quantitative evidence
that FRIDAY learns to control and self-improve on Excel and Powerpoint with
minimal supervision. Our OS-Copilot framework and empirical findings provide
infrastructure and insights for future research toward more capable and
general-purpose computer agents.
- Abstract(参考訳): コンピュータとの自律的なインタラクションは、大きな可能性を秘めた長年の課題であり、近年の大規模言語モデル(llm)の普及は、デジタルエージェントの構築の進展を著しく加速している。
しかし、これらのエージェントのほとんどは特定のソフトウェアやウェブサイトのような狭いドメインと相互作用するように設計されている。
この狭い焦点は、一般的なコンピュータタスクに適用性を制限する。
この目的のために,OS-Copilotは,Web,コード端末,ファイル,マルチメディア,各種サードパーティアプリケーションなど,オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークである。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
また、FRIDAYがExcelとPowerpointの制御と自己改善を最小限の監督で学んでいることの数値的および定量的証拠を示す。
当社のos-copilotフレームワークと経験的知見は,より有能で汎用的なコンピュータエージェントに向けた今後の研究のためのインフラストラクチャと洞察を提供する。
関連論文リスト
- A3: Android Agent Arena for Mobile GUI Agents [46.73085454978007]
モバイルGUIエージェントは、モバイルデバイス上で自律的にタスクを実行するように設計されている。
Android Agent Arena (A3)は、現実の、開発中のタスクのパフォーマンスを評価するための、新しい評価プラットフォームである。
A3には、広く使われている21の一般サードパーティアプリと、一般的なユーザシナリオを表す201のタスクが含まれている。
論文 参考訳(メタデータ) (2025-01-02T09:03:56Z) - Fundamental Risks in the Current Deployment of General-Purpose AI Models: What Have We (Not) Learnt From Cybersecurity? [60.629883024152576]
大規模言語モデル(LLM)は、幅広いユースケースで急速にデプロイされている。
OpenAIs Alteraは、自律性の向上、データアクセス、実行機能の一例に過ぎない。
これらの方法には、さまざまなサイバーセキュリティ上の課題が伴う。
論文 参考訳(メタデータ) (2024-12-19T14:44:41Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。
最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。
これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant [26.571908014508214]
AgentStoreは、コンピュータタスクを自動化するヘテロジニアスエージェントを動的に統合するために設計されたスケーラブルなプラットフォームである。
多様なエージェントを効率的に管理するための textbfAgentToken 戦略を用いた新しいコア textbfMetaAgent を提案する。
3つの挑戦的なベンチマークの実験では、AgentStoreは、制限のある以前のシステムの制限を超越している。
論文 参考訳(メタデータ) (2024-10-24T09:58:40Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。