論文の概要: Towards General Computer Control: A Multimodal Agent for Red Dead
Redemption II as a Case Study
- arxiv url: http://arxiv.org/abs/2403.03186v2
- Date: Thu, 7 Mar 2024 14:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:25:50.937248
- Title: Towards General Computer Control: A Multimodal Agent for Red Dead
Redemption II as a Case Study
- Title(参考訳): 汎用コンピュータ制御に向けて--red dead redemption ii のマルチモーダルエージェントを事例として
- Authors: Weihao Tan, Ziluo Ding, Wentao Zhang, Boyu Li, Bohan Zhou, Junpeng
Yue, Haochong Xia, Jiechuan Jiang, Longtao Zheng, Xinrun Xu, Yifei Bi,
Pengjie Gu, Xinrun Wang, B\"orje F. Karlsson, Bo An, Zongqing Lu
- Abstract要約: 本稿では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することで,コンピュータタスクをマスターできる基盤エージェントを提案する。
Cradleは6つの主要なモジュールを持つエージェントフレームワークである。例えば、マルチモーダル情報抽出のための情報収集、過去の経験を再考するための自己反映、最高の次のタスクを選択するためのタスク推論、関連するスキルの生成と更新のためのスキルキュレーション、キーボードとマウス制御のための特定の操作を生成するアクションプランニング、6)過去の経験と既知のスキルの記憶と検索のためのメモリである。
- 参考スコア(独自算出の注目度): 55.51812651443184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success in specific tasks and scenarios, existing foundation
agents, empowered by large models (LMs) and advanced tools, still cannot
generalize to different scenarios, mainly due to dramatic differences in the
observations and actions across scenarios. In this work, we propose the General
Computer Control (GCC) setting: building foundation agents that can master any
computer task by taking only screen images (and possibly audio) of the computer
as input, and producing keyboard and mouse operations as output, similar to
human-computer interaction. The main challenges of achieving GCC are: 1) the
multimodal observations for decision-making, 2) the requirements of accurate
control of keyboard and mouse, 3) the need for long-term memory and reasoning,
and 4) the abilities of efficient exploration and self-improvement. To target
GCC, we introduce Cradle, an agent framework with six main modules, including:
1) information gathering to extract multi-modality information, 2)
self-reflection to rethink past experiences, 3) task inference to choose the
best next task, 4) skill curation for generating and updating relevant skills
for given tasks, 5) action planning to generate specific operations for
keyboard and mouse control, and 6) memory for storage and retrieval of past
experiences and known skills. To demonstrate the capabilities of generalization
and self-improvement of Cradle, we deploy it in the complex AAA game Red Dead
Redemption II, serving as a preliminary attempt towards GCC with a challenging
target. To our best knowledge, our work is the first to enable LMM-based agents
to follow the main storyline and finish real missions in complex AAA games,
with minimal reliance on prior knowledge or resources. The project website is
at https://baai-agents.github.io/Cradle/.
- Abstract(参考訳): 特定のタスクやシナリオの成功にもかかわらず、大きなモデル(LM)と高度なツールによって強化された既存のファンデーションエージェントは、主にシナリオ間の観察とアクションの劇的な違いのために、さまざまなシナリオに一般化できない。
本研究では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することにより,コンピュータタスクをマスターできる基盤エージェントを構築することを提案する。
GCCの達成の主な課題は次のとおりである。
1)意思決定のためのマルチモーダルな観察
2)キーボードとマウスの正確な制御の要件
3)長期記憶と推論の必要性
4)効率的な探索と自己改善の能力。
GCCをターゲットにして、以下の6つの主要なモジュールを持つエージェントフレームワークであるCradleを紹介します。
1)マルチモダリティ情報抽出のための情報収集
2)過去の経験を再考する自省
3) 最良の次のタスクを選択するためのタスク推論。
4)所定の課題に関するスキルを生成・更新するためのスキルキュレーション
5) キーボード及びマウス制御のための特定の操作を生成するための行動計画
6)過去の経験と既知のスキルの記憶と検索のためのメモリ。
クラドルの一般化と自己改善の能力を実証するため、複雑なAAAゲーム『Red Dead Redemption II』にデプロイし、挑戦的な目標を持つGCCに向けた予備的な試みとして機能する。
私たちの最善の知識として、私たちの仕事は、lmmベースのエージェントがメインのストーリーラインに従って、事前の知識やリソースに最小限の依存で、複雑なaaaゲームで実際のミッションを完了できるようにします。
プロジェクトのwebサイトはhttps://baai-agents.github.io/cradle/。
関連論文リスト
- OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist
Autonomous Agents for Desktop and Web [45.79408296386536]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-06-05T23:32:26Z) - Responsible Task Automation: Empowering Large Language Models as
Responsible Task Automators [17.991044940694778]
大規模言語モデル(LLM)は、ユーザ命令に従ってタスクを自動補完する有望な可能性を示している。
大きな疑問が浮かび上がってくる。人間がタスクを自動化するのを助けるとき、機械はどうやって責任を持って振る舞うことができるのか?
我々は、責任あるタスク自動化(Responsible Task Automation, ResponsibleTA)を、LCMベースのコーディネータとタスク自動化の実行者との間の責任ある協調を促進するための基本的なフレームワークとして提示する。
論文 参考訳(メタデータ) (2023-06-02T02:42:58Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Learning General World Models in a Handful of Reward-Free Deployments [53.06205037827802]
汎用エージェントの構築は、深層強化学習(RL)における大きな課題である
本稿では,新しい環境下での自己監督型探査手法であるCASCADEについて紹介する。
我々は,CASCADEが多様なタスク非依存のデータセットを収集し,ゼロショットから新規で目に見えない下流タスクへのエージェント学習を行うことを示す。
論文 参考訳(メタデータ) (2022-10-23T12:38:03Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。