Fugu-MT 論文翻訳(概要): Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

論文の概要: Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

arxiv url: http://arxiv.org/abs/2403.03186v2
Date: Thu, 7 Mar 2024 14:41:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 16:25:50.937248
Title: Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
Title（参考訳）: 汎用コンピュータ制御に向けて--red dead redemption ii のマルチモーダルエージェントを事例として
Authors: Weihao Tan, Ziluo Ding, Wentao Zhang, Boyu Li, Bohan Zhou, Junpeng Yue, Haochong Xia, Jiechuan Jiang, Longtao Zheng, Xinrun Xu, Yifei Bi, Pengjie Gu, Xinrun Wang, B\"orje F. Karlsson, Bo An, Zongqing Lu
Abstract要約: 本稿では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することで,コンピュータタスクをマスターできる基盤エージェントを提案する。 Cradleは6つの主要なモジュールを持つエージェントフレームワークである。例えば、マルチモーダル情報抽出のための情報収集、過去の経験を再考するための自己反映、最高の次のタスクを選択するためのタスク推論、関連するスキルの生成と更新のためのスキルキュレーション、キーボードとマウス制御のための特定の操作を生成するアクションプランニング、6)過去の経験と既知のスキルの記憶と検索のためのメモリである。
参考スコア（独自算出の注目度）: 55.51812651443184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the success in specific tasks and scenarios, existing foundation agents, empowered by large models (LMs) and advanced tools, still cannot generalize to different scenarios, mainly due to dramatic differences in the observations and actions across scenarios. In this work, we propose the General Computer Control (GCC) setting: building foundation agents that can master any computer task by taking only screen images (and possibly audio) of the computer as input, and producing keyboard and mouse operations as output, similar to human-computer interaction. The main challenges of achieving GCC are: 1) the multimodal observations for decision-making, 2) the requirements of accurate control of keyboard and mouse, 3) the need for long-term memory and reasoning, and 4) the abilities of efficient exploration and self-improvement. To target GCC, we introduce Cradle, an agent framework with six main modules, including: 1) information gathering to extract multi-modality information, 2) self-reflection to rethink past experiences, 3) task inference to choose the best next task, 4) skill curation for generating and updating relevant skills for given tasks, 5) action planning to generate specific operations for keyboard and mouse control, and 6) memory for storage and retrieval of past experiences and known skills. To demonstrate the capabilities of generalization and self-improvement of Cradle, we deploy it in the complex AAA game Red Dead Redemption II, serving as a preliminary attempt towards GCC with a challenging target. To our best knowledge, our work is the first to enable LMM-based agents to follow the main storyline and finish real missions in complex AAA games, with minimal reliance on prior knowledge or resources. The project website is at https://baai-agents.github.io/Cradle/.
Abstract（参考訳）: 特定のタスクやシナリオの成功にもかかわらず、大きなモデル(LM)と高度なツールによって強化された既存のファンデーションエージェントは、主にシナリオ間の観察とアクションの劇的な違いのために、さまざまなシナリオに一般化できない。本研究では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することにより,コンピュータタスクをマスターできる基盤エージェントを構築することを提案する。 GCCの達成の主な課題は次のとおりである。 1)意思決定のためのマルチモーダルな観察 2)キーボードとマウスの正確な制御の要件 3)長期記憶と推論の必要性 4)効率的な探索と自己改善の能力。 GCCをターゲットにして、以下の6つの主要なモジュールを持つエージェントフレームワークであるCradleを紹介します。 1)マルチモダリティ情報抽出のための情報収集 2)過去の経験を再考する自省 3) 最良の次のタスクを選択するためのタスク推論。 4)所定の課題に関するスキルを生成・更新するためのスキルキュレーション 5) キーボード及びマウス制御のための特定の操作を生成するための行動計画 6)過去の経験と既知のスキルの記憶と検索のためのメモリ。クラドルの一般化と自己改善の能力を実証するため、複雑なAAAゲーム『Red Dead Redemption II』にデプロイし、挑戦的な目標を持つGCCに向けた予備的な試みとして機能する。私たちの最善の知識として、私たちの仕事は、lmmベースのエージェントがメインのストーリーラインに従って、事前の知識やリソースに最小限の依存で、複雑なaaaゲームで実際のミッションを完了できるようにします。プロジェクトのwebサイトはhttps://baai-agents.github.io/cradle/。

関連論文リスト

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文参考訳（メタデータ） (2025-05-19T15:09:23Z)
QuadWBG: Generalizable Quadrupedal Whole-Body Grasping [7.802964645500815]
アームマウントカメラを用いたロコマニピュレーション・コントローラの高機能化のためのモジュラー・フレームワークを提案する。提案システムは実世界の89%の最先端のワンタイム把握精度を実現する。
論文参考訳（メタデータ） (2024-11-11T08:19:54Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文参考訳（メタデータ） (2024-02-12T07:29:22Z)
ScreenAgent: A Vision Language Model-driven Computer Control Agent [17.11085071288194]
視覚言語モデル(VLM)エージェントが実際のコンピュータ画面と対話する環境を構築する。この環境では、エージェントは、マウスとキーボードのアクションを出力することで、スクリーンショットを観察し、GUI(Graphics User Interface)を操作することができる。そこで,ScreenAgentデータセットを構築し,様々なコンピュータタスクの完了時にスクリーンショットとアクションシーケンスを収集する。
論文参考訳（メタデータ） (2024-02-09T02:33:45Z)
Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。 Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文参考訳（メタデータ） (2023-10-12T17:59:58Z)
MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文参考訳（メタデータ） (2023-09-18T17:52:22Z)
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文参考訳（メタデータ） (2023-05-25T17:59:49Z)
ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills [24.150758623016195]
我々は、一般化可能な操作スキルのための次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を紹介する。 ManiSkill2には、2000以上のオブジェクトモデルと4M以上のデモフレームを備えた20の操作タスクファミリが含まれている。幅広いアルゴリズムをサポートする統一インターフェースと評価プロトコルを定義する。高速な視覚入力学習アルゴリズムにより、CNNベースのポリシーでサンプルを約2000 FPSで収集することができる。
論文参考訳（メタデータ） (2023-02-09T14:24:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。