論文の概要: OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- arxiv url: http://arxiv.org/abs/2402.07456v1
- Date: Mon, 12 Feb 2024 07:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:22:46.819995
- Title: OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- Title(参考訳): OS-Copilot: 自己改善型汎用コンピュータエージェントを目指して
- Authors: Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu,
Shunyu Yao, Tao Yu and Lingpeng Kong
- Abstract要約: オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
- 参考スコア(独自算出の注目度): 48.29860831901484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous interaction with the computer has been a longstanding challenge
with great potential, and the recent proliferation of large language models
(LLMs) has markedly accelerated progress in building digital agents. However,
most of these agents are designed to interact with a narrow domain, such as a
specific software or website. This narrow focus constrains their applicability
for general computer tasks. To this end, we introduce OS-Copilot, a framework
to build generalist agents capable of interfacing with comprehensive elements
in an operating system (OS), including the web, code terminals, files,
multimedia, and various third-party applications. We use OS-Copilot to create
FRIDAY, a self-improving embodied agent for automating general computer tasks.
On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods
by 35%, showcasing strong generalization to unseen applications via accumulated
skills from previous tasks. We also present numerical and quantitative evidence
that FRIDAY learns to control and self-improve on Excel and Powerpoint with
minimal supervision. Our OS-Copilot framework and empirical findings provide
infrastructure and insights for future research toward more capable and
general-purpose computer agents.
- Abstract(参考訳): コンピュータとの自律的なインタラクションは、大きな可能性を秘めた長年の課題であり、近年の大規模言語モデル(llm)の普及は、デジタルエージェントの構築の進展を著しく加速している。
しかし、これらのエージェントのほとんどは特定のソフトウェアやウェブサイトのような狭いドメインと相互作用するように設計されている。
この狭い焦点は、一般的なコンピュータタスクに適用性を制限する。
この目的のために,OS-Copilotは,Web,コード端末,ファイル,マルチメディア,各種サードパーティアプリケーションなど,オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークである。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
また、FRIDAYがExcelとPowerpointの制御と自己改善を最小限の監督で学んでいることの数値的および定量的証拠を示す。
当社のos-copilotフレームワークと経験的知見は,より有能で汎用的なコンピュータエージェントに向けた今後の研究のためのインフラストラクチャと洞察を提供する。
関連論文リスト
- AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant [26.571908014508214]
AgentStoreは、コンピュータタスクを自動化するヘテロジニアスエージェントを動的に統合するために設計されたスケーラブルなプラットフォームである。
多様なエージェントを効率的に管理するための textbfAgentToken 戦略を用いた新しいコア textbfMetaAgent を提案する。
3つの挑戦的なベンチマークの実験では、AgentStoreは、制限のある以前のシステムの制限を超越している。
論文 参考訳(メタデータ) (2024-10-24T09:58:40Z) - Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。
Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文 参考訳(メタデータ) (2024-10-10T17:43:51Z) - OpenHands: An Open Platform for AI Software Developers as Generalist Agents [109.8507367518992]
私たちは、人間の開発者と同じような方法で世界と対話するAIエージェントを開発するためのプラットフォームであるOpenHandsを紹介します。
プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、評価ベンチマークの導入について説明する。
論文 参考訳(メタデータ) (2024-07-23T17:50:43Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - MMAC-Copilot: Multi-modal Agent Collaboration Operating System Copilot [22.03327808115817]
オペレーティングシステムとのインタラクション能力を高めるために,Multi-Modal Agent Collaboration framework (MMAC-Copilot)を提案する。
このフレームワークはチームコラボレーションチェーンを導入し、各参加エージェントがそれぞれのドメイン知識に基づいて洞察をコントリビュートできるようにする。
MMAC-CopilotはGAIAにおいて、既存の主要なシステムよりも平均6.8%向上した。
論文 参考訳(メタデータ) (2024-04-28T05:33:15Z) - OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web [43.60736044871539]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。