論文の概要: Cradle: Empowering Foundation Agents Towards General Computer Control
- arxiv url: http://arxiv.org/abs/2403.03186v3
- Date: Tue, 2 Jul 2024 17:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 07:29:19.741395
- Title: Cradle: Empowering Foundation Agents Towards General Computer Control
- Title(参考訳): Cradle: 汎用コンピュータ制御に向けた基盤エージェントの強化
- Authors: Weihao Tan, Wentao Zhang, Xinrun Xu, Haochong Xia, Ziluo Ding, Boyu Li, Bohan Zhou, Junpeng Yue, Jiechuan Jiang, Yewen Li, Ruyi An, Molei Qin, Chuqiao Zong, Longtao Zheng, Yujie Wu, Xiaoqiang Chai, Yifei Bi, Tianbao Xie, Pengjie Gu, Xiyun Li, Ceyao Zhang, Long Tian, Chaojie Wang, Xinrun Wang, Börje F. Karlsson, Bo An, Shuicheng Yan, Zongqing Lu,
- Abstract要約: GCCに向けた予備的な試みとして,モジュール型かつフレキシブルなLMM駆動フレームワークであるCradleを紹介した。
Cradleは入力スクリーンショットを理解し、低レベルキーボードと高レベルプランニング後のマウス制御のために実行可能なコードを出力することができる。
Cradleは、これまで探索されていなかった4つの商用ビデオゲーム、5つのソフトウェアアプリケーション、そして包括的なベンチマークであるOSWorldで、目覚ましい一般化性と印象的なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 80.02794667853045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success in specific scenarios, existing foundation agents still struggle to generalize across various virtual scenarios, mainly due to the dramatically different encapsulations of environments with manually designed observation and action spaces. To handle this issue, we propose the General Computer Control (GCC) setting to restrict foundation agents to interact with software through the most unified and standardized interface, i.e., using screenshots as input and keyboard and mouse actions as output. We introduce Cradle, a modular and flexible LMM-powered framework, as a preliminary attempt towards GCC. Enhanced by six key modules, Cradle can understand input screenshots and output executable code for low-level keyboard and mouse control after high-level planning, so that Cradle can interact with any software and complete long-horizon complex tasks without relying on any built-in APIs. Experimental results show that Cradle exhibits remarkable generalizability and impressive performance across four previously unexplored commercial video games, five software applications, and a comprehensive benchmark, OSWorld. Cradle is the first to enable foundation agents to follow the main storyline and complete 40-minute-long real missions in the complex AAA game Red Dead Redemption 2 (RDR2). Cradle can also create a city of a thousand people in Cities: Skylines, farm and harvest parsnips in Stardew Valley, and trade and bargain with a maximal weekly total profit of 87% in Dealer's Life 2. Cradle can not only operate daily software, like Chrome, Outlook, and Feishu, but also edit images and videos using Meitu and CapCut. Cradle greatly extends the reach of foundation agents by enabling the easy conversion of any software, especially complex games, into benchmarks to evaluate agents' various abilities and facilitate further data collection, thus paving the way for generalist agents.
- Abstract(参考訳): 特定のシナリオの成功にもかかわらず、既存のファウンデーションエージェントは、主に手動で設計された観察と行動空間を持つ環境の劇的に異なるカプセル化のために、様々な仮想シナリオをまたいだ一般化に苦慮している。
この問題に対処するため、我々は、基盤エージェントが最も統一的で標準化されたインターフェース、すなわち、スクリーンショットを入力として、キーボードとマウスのアクションを出力として使用することにより、ソフトウェアとのインタラクションを制限するための一般コンピュータ制御(GCC)設定を提案する。
GCCに向けた予備的な試みとして,モジュール型かつフレキシブルなLMM駆動フレームワークであるCradleを紹介した。
6つの重要なモジュールによって強化されたCradleは、入力スクリーンショットを理解して、高レベルの計画後に低レベルのキーボードとマウスのコントロールの実行可能なコードを出力する。
実験結果から,Cradleはこれまでに探索されていない4つの商用ビデオゲーム,5つのソフトウェアアプリケーション,包括的なベンチマークであるOSWorldで,目覚ましい一般化性と印象的なパフォーマンスを示した。
Cradleは、AAAの複雑なゲームRed Dead Redemption 2(RDR2)で、ファンデーションエージェントがメインストーリーラインをフォローし、40分間の実際のミッションを完了できるようにする最初の方法である。
クレードルは、スターデュー・バレーのスカイライン、農場と収穫用地、そしてデアラーズ・ライフ2で最大で週87%の利益で取引と取引を行うことができる。
Cradleは、Chrome、Outlook、Feishuのような日々のソフトウェアを操作するだけでなく、MeituやCapCutを使って画像やビデオを編集できる。
Cradleは、あらゆるソフトウェア、特に複雑なゲームを簡単にベンチマークに変換し、エージェントのさまざまな能力を評価し、さらなるデータ収集を容易にし、ジェネラリストエージェントへの道を開くことによって、ファンデーションエージェントのリーチを大きく広げる。
関連論文リスト
- QuadWBG: Generalizable Quadrupedal Whole-Body Grasping [7.802964645500815]
アームマウントカメラを用いたロコマニピュレーション・コントローラの高機能化のためのモジュラー・フレームワークを提案する。
提案システムは実世界の89%の最先端のワンタイム把握精度を実現する。
論文 参考訳(メタデータ) (2024-11-11T08:19:54Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。
我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。
一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文 参考訳(メタデータ) (2024-02-12T07:29:22Z) - ScreenAgent: A Vision Language Model-driven Computer Control Agent [17.11085071288194]
視覚言語モデル(VLM)エージェントが実際のコンピュータ画面と対話する環境を構築する。
この環境では、エージェントは、マウスとキーボードのアクションを出力することで、スクリーンショットを観察し、GUI(Graphics User Interface)を操作することができる。
そこで,ScreenAgentデータセットを構築し,様々なコンピュータタスクの完了時にスクリーンショットとアクションシーケンスを収集する。
論文 参考訳(メタデータ) (2024-02-09T02:33:45Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。
我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文 参考訳(メタデータ) (2023-09-18T17:52:22Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills [24.150758623016195]
我々は、一般化可能な操作スキルのための次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を紹介する。
ManiSkill2には、2000以上のオブジェクトモデルと4M以上のデモフレームを備えた20の操作タスクファミリが含まれている。
幅広いアルゴリズムをサポートする統一インターフェースと評価プロトコルを定義する。
高速な視覚入力学習アルゴリズムにより、CNNベースのポリシーでサンプルを約2000 FPSで収集することができる。
論文 参考訳(メタデータ) (2023-02-09T14:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。