Fugu-MT 論文翻訳(概要): GROOT: Learning to Follow Instructions by Watching Gameplay Videos

論文の概要: GROOT: Learning to Follow Instructions by Watching Gameplay Videos

arxiv url: http://arxiv.org/abs/2310.08235v2
Date: Wed, 29 Nov 2023 01:07:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 00:42:09.388818
Title: GROOT: Learning to Follow Instructions by Watching Gameplay Videos
Title（参考訳）: GROOT:ゲームプレイ動画を視聴して指導をフォローする学習
Authors: Shaofei Cai, Bowei Zhang, Zihao Wang, Xiaojian Ma, Anji Liu, Yitao Liang
Abstract要約: 本研究では,オープンワールド環境におけるオープンエンドインストラクションを追従できるコントローラを構築する際の課題について検討する。我々は,表現力のある目標仕様を提供する指示として,参照ビデオに従うことを提案する。ゲームプレイビデオからこのような命令追従コントローラを学習するための新しい学習フレームワークが導出されている。
参考スコア（独自算出の注目度）: 27.33718710879657
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study the problem of building a controller that can follow open-ended instructions in open-world environments. We propose to follow reference videos as instructions, which offer expressive goal specifications while eliminating the need for expensive text-gameplay annotations. A new learning framework is derived to allow learning such instruction-following controllers from gameplay videos while producing a video instruction encoder that induces a structured goal space. We implement our agent GROOT in a simple yet effective encoder-decoder architecture based on causal transformers. We evaluate GROOT against open-world counterparts and human players on a proposed Minecraft SkillForge benchmark. The Elo ratings clearly show that GROOT is closing the human-machine gap as well as exhibiting a 70% winning rate over the best generalist agent baseline. Qualitative analysis of the induced goal space further demonstrates some interesting emergent properties, including the goal composition and complex gameplay behavior synthesis. The project page is available at https://craftjarvis-groot.github.io.
Abstract（参考訳）: オープンワールド環境においてオープンエンド命令を追従できるコントローラの構築の問題について検討する。我々は,高額なテキストゲームアノテーションを不要にしつつ,表現力のある目標仕様を提供する指示として参照ビデオに従うことを提案する。新しい学習フレームワークは、構造化された目標空間を誘導するビデオ命令エンコーダを作成しながら、ゲームプレイビデオからそのような指示追従コントローラを学習できるようにする。我々はエージェントGROOTを、因果変換器をベースとしたシンプルで効果的なエンコーダデコーダアーキテクチャで実装する。我々は,minecraft skillforgeベンチマークを用いて,オープンワールドと人間プレイヤーのgrootを評価する。 eloの評価は、grootが人間と機械のギャップを縮め、最高のジェネラリストエージェントのベースラインよりも70%の勝利率を示していることをはっきりと示している。誘導ゴール空間の質的解析は、ゴール構成や複雑なゲームプレイ行動合成など、いくつかの興味深い創発的特性をさらに示している。プロジェクトページはhttps://craftjarvis-groot.github.ioで閲覧できる。

関連論文リスト

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy [50.13429055093534]
Optimus-2はMultimodal Large Language Model (MLLM)を組み込んだ新しいMinecraftエージェントである。我々は,8つのアトミックタスクにわたる25,000のビデオを含む,高品質なMinecraft Goal-Observation-Action(MGOA)データセットを紹介した。 Optimus-2は、アトミックタスク、ロングホライゾンタスク、マインクラフトのオープンエンド命令タスクにまたがる優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-02-27T09:18:04Z)
GameFactory: Creating New Games with Generative Interactive Videos [32.98135338530966]
生成ビデオは、新しいコンテンツを自律的に作成することによって、ゲーム開発に革命をもたらす可能性がある。本稿では,アクション制御型シーン汎用ゲーム生成フレームワークであるGameFactoryを紹介する。実験により,GameFactoryはオープンドメインアクション制御可能なゲームビデオを効果的に生成することを示した。
論文参考訳（メタデータ） (2025-01-14T18:57:21Z)
Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation [8.931633531104021]
SAS(Spatially-Aware Speaker)は、環境の構造的知識と意味的知識の両方を用いてよりリッチな命令を生成する命令生成装置である。提案手法は,既存の命令生成モデルより優れ,標準指標を用いて評価する。
論文参考訳（メタデータ） (2024-09-09T13:12:11Z)
This&That: Language-Gesture Controlled Video Generation for Robot Planning [14.60108861767878]
本稿では,これとよばれる幅広いタスクをコミュニケーションし,計画し,実行するためのロボット学習フレームワークを提案する。 This&Thatは、インターネット規模のデータのトレーニングを通じて、リッチな物理的コンテキストとセマンティックコンテキストを含むビデオ生成モデルを活用することで、一般的なタスクを解決する。ビデオベースプランニングにおける基本的な課題として,1) 簡単な指示によるあいまいなタスクコミュニケーション,2) ユーザの意図を尊重する制御可能なビデオ生成,3) 視覚的プランをロボット行動に変換する3つの課題がある。
論文参考訳（メタデータ） (2024-07-08T00:28:41Z)
Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文参考訳（メタデータ） (2024-05-30T17:56:54Z)
Verifiably Following Complex Robot Instructions with Foundation Models [16.564788361518197]
人々は、柔軟に制約を表現し、任意のランドマークを参照し、ロボットに指示する際の検証を望みます。本稿では,ロボットが表現的かつ複雑なオープンエンド命令を確実に追従できるような,動き計画のための言語指導基盤を提案する。 LIMは、インストラクターの意図したロボットのアライメントを明らかにする象徴的な指示表現を構築する。
論文参考訳（メタデータ） (2024-02-18T08:05:54Z)
Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。 YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文参考訳（メタデータ） (2023-07-22T05:26:50Z)
KITE: Keypoint-Conditioned Policies for Semantic Manipulation [40.63568980167196]
Keypoints + Instructions to Execution (KITE) はセマンティック操作のための2段階のフレームワークである。まず、2D画像キーポイントを通して視覚シーンに入力命令を接地する。 KITEは学習したキーポイント条件のスキルを実行し、命令を実行する。
論文参考訳（メタデータ） (2023-06-29T00:12:21Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Unsupervised Discovery of Actions in Instructional Videos [86.77350242461803]
我々は,様々な指導ビデオから構造化された人間のタスクの原子的動作を学習するための教師なしのアプローチを提案する。本稿では,映像の時間的セグメンテーションのための逐次自己回帰モデルを提案する。我々の手法は、最先端の教師なし手法よりも大きなマージンで優れています。
論文参考訳（メタデータ） (2021-06-28T14:05:01Z)
Playable Video Generation [47.531594626822155]
我々は,ユーザが生成した映像を,ビデオゲームのように毎回個別のアクションを選択することで制御できるようにすることを目標とする。タスクの難しさは、意味的に一貫性のあるアクションを学習することと、ユーザ入力に条件付けされたリアルなビデオを生成することの両方にある。本稿では,ビデオの大規模なデータセットに基づいて,自己教師型で訓練されたPVGのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-01-28T18:55:58Z)
Disentangling Controllable Object through Video Prediction Improves Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文参考訳（メタデータ） (2020-02-21T05:43:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。