論文の概要: OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- arxiv url: http://arxiv.org/abs/2402.07456v2
- Date: Thu, 15 Feb 2024 09:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 12:16:46.963601
- Title: OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- Title(参考訳): OS-Copilot: 自己改善型汎用コンピュータエージェントを目指して
- Authors: Zhiyong Wu, Chengcheng Han, Zichen Ding, Zhenmin Weng, Zhoumianze Liu,
Shunyu Yao, Tao Yu and Lingpeng Kong
- Abstract要約: オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
- 参考スコア(独自算出の注目度): 48.29860831901484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous interaction with the computer has been a longstanding challenge
with great potential, and the recent proliferation of large language models
(LLMs) has markedly accelerated progress in building digital agents. However,
most of these agents are designed to interact with a narrow domain, such as a
specific software or website. This narrow focus constrains their applicability
for general computer tasks. To this end, we introduce OS-Copilot, a framework
to build generalist agents capable of interfacing with comprehensive elements
in an operating system (OS), including the web, code terminals, files,
multimedia, and various third-party applications. We use OS-Copilot to create
FRIDAY, a self-improving embodied agent for automating general computer tasks.
On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods
by 35%, showcasing strong generalization to unseen applications via accumulated
skills from previous tasks. We also present numerical and quantitative evidence
that FRIDAY learns to control and self-improve on Excel and Powerpoint with
minimal supervision. Our OS-Copilot framework and empirical findings provide
infrastructure and insights for future research toward more capable and
general-purpose computer agents.
- Abstract(参考訳): コンピュータとの自律的なインタラクションは、大きな可能性を秘めた長年の課題であり、近年の大規模言語モデル(llm)の普及は、デジタルエージェントの構築の進展を著しく加速している。
しかし、これらのエージェントのほとんどは特定のソフトウェアやウェブサイトのような狭いドメインと相互作用するように設計されている。
この狭い焦点は、一般的なコンピュータタスクに適用性を制限する。
この目的のために,OS-Copilotは,Web,コード端末,ファイル,マルチメディア,各種サードパーティアプリケーションなど,オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークである。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
また、FRIDAYがExcelとPowerpointの制御と自己改善を最小限の監督で学んでいることの数値的および定量的証拠を示す。
当社のos-copilotフレームワークと経験的知見は,より有能で汎用的なコンピュータエージェントに向けた今後の研究のためのインフラストラクチャと洞察を提供する。
関連論文リスト
- WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work
Tasks? [85.05288624713359]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく29のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - Towards General Computer Control: A Multimodal Agent for Red Dead
Redemption II as a Case Study [55.51812651443184]
本稿では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することで,コンピュータタスクをマスターできる基盤エージェントを提案する。
Cradleは6つの主要なモジュールを持つエージェントフレームワークである。例えば、マルチモーダル情報抽出のための情報収集、過去の経験を再考するための自己反映、最高の次のタスクを選択するためのタスク推論、関連するスキルの生成と更新のためのスキルキュレーション、キーボードとマウス制御のための特定の操作を生成するアクションプランニング、6)過去の経験と既知のスキルの記憶と検索のためのメモリである。
論文 参考訳(メタデータ) (2024-03-05T18:22:29Z) - OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist
Autonomous Agents for Desktop and Web [45.79408296386536]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal
Models [67.9935966375389]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web
Tasks [96.9727427788202]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - XUAT-Copilot: Multi-Agent Collaborative System for Automated User
Acceptance Testing with Large Language Model [9.05375318147931]
自動UATのためのマルチエージェント協調システムXUAT-Copilotを提案する。
提案システムは主に,動作計画,状態チェック,パラメータ選択を担当する3つのLCMエージェントと,状態検出とケース書き換えのための2つのモジュールから構成される。
実験では,Pass@1の精度を単エージェントアーキテクチャと比較して大幅に向上した。
論文 参考訳(メタデータ) (2024-01-05T08:24:30Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。