論文の概要: Towards General Computer Control: A Multimodal Agent for Red Dead
Redemption II as a Case Study
- arxiv url: http://arxiv.org/abs/2403.03186v1
- Date: Tue, 5 Mar 2024 18:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 13:38:39.780429
- Title: Towards General Computer Control: A Multimodal Agent for Red Dead
Redemption II as a Case Study
- Title(参考訳): 汎用コンピュータ制御に向けて--red dead redemption ii のマルチモーダルエージェントを事例として
- Authors: Weihao Tan, Ziluo Ding, Wentao Zhang, Boyu Li, Bohan Zhou, Junpeng
Yue, Haochong Xia, Jiechuan Jiang, Longtao Zheng, Xinrun Xu, Yifei Bi,
Pengjie Gu, Xinrun Wang, B\"orje F. Karlsson, Bo An, Zongqing Lu
- Abstract要約: コンピュータタスクをマスターできる基礎エージェントを構築する。
自己回帰,タスク推論,スキルキュレーションなど,強力な推論能力を持つエージェントフレームワークであるCradleを提案する。
我々は、複雑なAAAゲーム『Red Dead Redemption II』にクレイドルを配置し、挑戦的な目標を持つGCCに向けた予備的な試みとして機能する。
- 参考スコア(独自算出の注目度): 55.51812651443184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated the success of foundation agents in specific
tasks or scenarios. However, existing agents cannot generalize across different
scenarios, mainly due to their diverse observation and action spaces and
semantic gaps, or reliance on task-specific resources. In this work, we propose
the General Computer Control (GCC) setting: building foundation agents that can
master any computer task by taking only screen images (and possibly audio) of
the computer as input, and producing keyboard and mouse operations as output,
similar to human-computer interaction. To target GCC, we propose Cradle, an
agent framework with strong reasoning abilities, including self-reflection,
task inference, and skill curation, to ensure generalizability and
self-improvement across various tasks. To demonstrate the capabilities of
Cradle, we deploy it in the complex AAA game Red Dead Redemption II, serving as
a preliminary attempt towards GCC with a challenging target. Our agent can
follow the main storyline and finish real missions in this complex AAA game,
with minimal reliance on prior knowledge and application-specific resources.
The project website is at https://baai-agents.github.io/Cradle/.
- Abstract(参考訳): 最近の研究は、特定のタスクやシナリオにおける基礎的エージェントの成功を実証している。
しかし、既存のエージェントは様々なシナリオにまたがって一般化できない。主な原因は、様々な観察と行動空間と意味的ギャップ、タスク固有のリソースへの依存である。
本研究では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することにより,コンピュータタスクをマスターできる基盤エージェントを構築することを提案する。
GCCをターゲットにして,多種多様なタスクにまたがって,自己回帰,タスク推論,スキルキュレーションなどの強力な推論能力を持つエージェントフレームワークであるCradleを提案する。
cradleの能力を実証するために、複雑なaaaゲームであるred dead redemption iiにデプロイし、挑戦的なターゲットでgccに向けた予備的な試みとして使用します。
私たちのエージェントはこの複雑なaaaゲームでメインストーリーに従い、事前の知識とアプリケーション固有のリソースに最小限の依存で実際のミッションを完了できます。
プロジェクトのwebサイトはhttps://baai-agents.github.io/cradle/。
関連論文リスト
- OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist
Autonomous Agents for Desktop and Web [45.79408296386536]
エージェントがプログラムを生成する能力を評価するためのベンチマークであるOmniACTを紹介した。
このデータセットは、「次の曲を再生する」といった基本的なタスクと、「ジョン・ドーにメールを送る」といった長い水平線タスクで構成されている。
我々のベンチマークは、コンピュータタスクの自動化における言語モデルエージェントの進捗を計測し、評価するプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-02-27T14:47:53Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-06-05T23:32:26Z) - Responsible Task Automation: Empowering Large Language Models as
Responsible Task Automators [17.991044940694778]
大規模言語モデル(LLM)は、ユーザ命令に従ってタスクを自動補完する有望な可能性を示している。
大きな疑問が浮かび上がってくる。人間がタスクを自動化するのを助けるとき、機械はどうやって責任を持って振る舞うことができるのか?
我々は、責任あるタスク自動化(Responsible Task Automation, ResponsibleTA)を、LCMベースのコーディネータとタスク自動化の実行者との間の責任ある協調を促進するための基本的なフレームワークとして提示する。
論文 参考訳(メタデータ) (2023-06-02T02:42:58Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Learning General World Models in a Handful of Reward-Free Deployments [53.06205037827802]
汎用エージェントの構築は、深層強化学習(RL)における大きな課題である
本稿では,新しい環境下での自己監督型探査手法であるCASCADEについて紹介する。
我々は,CASCADEが多様なタスク非依存のデータセットを収集し,ゼロショットから新規で目に見えない下流タスクへのエージェント学習を行うことを示す。
論文 参考訳(メタデータ) (2022-10-23T12:38:03Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。