Fugu-MT 論文翻訳(概要): Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

論文の概要: Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study

arxiv url: http://arxiv.org/abs/2403.03186v1
Date: Tue, 5 Mar 2024 18:22:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 13:38:39.780429
Title: Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
Title（参考訳）: 汎用コンピュータ制御に向けて--red dead redemption ii のマルチモーダルエージェントを事例として
Authors: Weihao Tan, Ziluo Ding, Wentao Zhang, Boyu Li, Bohan Zhou, Junpeng Yue, Haochong Xia, Jiechuan Jiang, Longtao Zheng, Xinrun Xu, Yifei Bi, Pengjie Gu, Xinrun Wang, B\"orje F. Karlsson, Bo An, Zongqing Lu
Abstract要約: コンピュータタスクをマスターできる基礎エージェントを構築する。自己回帰,タスク推論,スキルキュレーションなど,強力な推論能力を持つエージェントフレームワークであるCradleを提案する。我々は、複雑なAAAゲーム『Red Dead Redemption II』にクレイドルを配置し、挑戦的な目標を持つGCCに向けた予備的な試みとして機能する。
参考スコア（独自算出の注目度）: 55.51812651443184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have demonstrated the success of foundation agents in specific tasks or scenarios. However, existing agents cannot generalize across different scenarios, mainly due to their diverse observation and action spaces and semantic gaps, or reliance on task-specific resources. In this work, we propose the General Computer Control (GCC) setting: building foundation agents that can master any computer task by taking only screen images (and possibly audio) of the computer as input, and producing keyboard and mouse operations as output, similar to human-computer interaction. To target GCC, we propose Cradle, an agent framework with strong reasoning abilities, including self-reflection, task inference, and skill curation, to ensure generalizability and self-improvement across various tasks. To demonstrate the capabilities of Cradle, we deploy it in the complex AAA game Red Dead Redemption II, serving as a preliminary attempt towards GCC with a challenging target. Our agent can follow the main storyline and finish real missions in this complex AAA game, with minimal reliance on prior knowledge and application-specific resources. The project website is at https://baai-agents.github.io/Cradle/.
Abstract（参考訳）: 最近の研究は、特定のタスクやシナリオにおける基礎的エージェントの成功を実証している。しかし、既存のエージェントは様々なシナリオにまたがって一般化できない。主な原因は、様々な観察と行動空間と意味的ギャップ、タスク固有のリソースへの依存である。本研究では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することにより,コンピュータタスクをマスターできる基盤エージェントを構築することを提案する。 GCCをターゲットにして,多種多様なタスクにまたがって,自己回帰,タスク推論,スキルキュレーションなどの強力な推論能力を持つエージェントフレームワークであるCradleを提案する。 cradleの能力を実証するために、複雑なaaaゲームであるred dead redemption iiにデプロイし、挑戦的なターゲットでgccに向けた予備的な試みとして使用します。私たちのエージェントはこの複雑なaaaゲームでメインストーリーに従い、事前の知識とアプリケーション固有のリソースに最小限の依存で実際のミッションを完了できます。プロジェクトのwebサイトはhttps://baai-agents.github.io/cradle/。

関連論文リスト

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis [59.83524388782554]
グラフィカルユーザインタフェース(GUI)の基盤は、コンピュータ利用エージェント開発において依然として重要なボトルネックとなっている。多様なタスクタイプにまたがる564の細かな注釈付きサンプルからなる総合ベンチマークであるOSWorld-Gを紹介する。我々は、400万のサンプルを含む、最大のコンピュータ利用基盤データセットであるJediを合成してリリースする。
論文参考訳（メタデータ） (2025-05-19T15:09:23Z)
QuadWBG: Generalizable Quadrupedal Whole-Body Grasping [7.802964645500815]
アームマウントカメラを用いたロコマニピュレーション・コントローラの高機能化のためのモジュラー・フレームワークを提案する。提案システムは実世界の89%の最先端のワンタイム把握精度を実現する。
論文参考訳（メタデータ） (2024-11-11T08:19:54Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement [48.29860831901484]
オペレーティングシステム(OS)の包括的要素と対話可能な汎用エージェントを構築するためのフレームワークであるOS-Copilotを紹介する。我々はOS-Copilotを使って、汎用コンピュータタスクを自動化する自己改善型実施エージェントであるFRIDAYを開発した。一般的なAIアシスタントのベンチマークであるGAIAでは、FRIDAYが従来の手法を35%上回り、以前のタスクから蓄積したスキルを通じて、目に見えないアプリケーションへの強力な一般化を示している。
論文参考訳（メタデータ） (2024-02-12T07:29:22Z)
ScreenAgent: A Vision Language Model-driven Computer Control Agent [17.11085071288194]
視覚言語モデル(VLM)エージェントが実際のコンピュータ画面と対話する環境を構築する。この環境では、エージェントは、マウスとキーボードのアクションを出力することで、スクリーンショットを観察し、GUI(Graphics User Interface)を操作することができる。そこで,ScreenAgentデータセットを構築し,様々なコンピュータタスクの完了時にスクリーンショットとアクションシーケンスを収集する。
論文参考訳（メタデータ） (2024-02-09T02:33:45Z)
Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。 Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文参考訳（メタデータ） (2023-10-12T17:59:58Z)
MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文参考訳（メタデータ） (2023-09-18T17:52:22Z)
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文参考訳（メタデータ） (2023-05-25T17:59:49Z)
ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills [24.150758623016195]
我々は、一般化可能な操作スキルのための次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を紹介する。 ManiSkill2には、2000以上のオブジェクトモデルと4M以上のデモフレームを備えた20の操作タスクファミリが含まれている。幅広いアルゴリズムをサポートする統一インターフェースと評価プロトコルを定義する。高速な視覚入力学習アルゴリズムにより、CNNベースのポリシーでサンプルを約2000 FPSで収集することができる。
論文参考訳（メタデータ） (2023-02-09T14:24:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。