論文の概要: GROOT: Learning to Follow Instructions by Watching Gameplay Videos
- arxiv url: http://arxiv.org/abs/2310.08235v2
- Date: Wed, 29 Nov 2023 01:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:42:09.388818
- Title: GROOT: Learning to Follow Instructions by Watching Gameplay Videos
- Title(参考訳): GROOT:ゲームプレイ動画を視聴して指導をフォローする学習
- Authors: Shaofei Cai, Bowei Zhang, Zihao Wang, Xiaojian Ma, Anji Liu, Yitao
Liang
- Abstract要約: 本研究では,オープンワールド環境におけるオープンエンドインストラクションを追従できるコントローラを構築する際の課題について検討する。
我々は,表現力のある目標仕様を提供する指示として,参照ビデオに従うことを提案する。
ゲームプレイビデオからこのような命令追従コントローラを学習するための新しい学習フレームワークが導出されている。
- 参考スコア(独自算出の注目度): 27.33718710879657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of building a controller that can follow open-ended
instructions in open-world environments. We propose to follow reference videos
as instructions, which offer expressive goal specifications while eliminating
the need for expensive text-gameplay annotations. A new learning framework is
derived to allow learning such instruction-following controllers from gameplay
videos while producing a video instruction encoder that induces a structured
goal space. We implement our agent GROOT in a simple yet effective
encoder-decoder architecture based on causal transformers. We evaluate GROOT
against open-world counterparts and human players on a proposed Minecraft
SkillForge benchmark. The Elo ratings clearly show that GROOT is closing the
human-machine gap as well as exhibiting a 70% winning rate over the best
generalist agent baseline. Qualitative analysis of the induced goal space
further demonstrates some interesting emergent properties, including the goal
composition and complex gameplay behavior synthesis. The project page is
available at https://craftjarvis-groot.github.io.
- Abstract(参考訳): オープンワールド環境においてオープンエンド命令を追従できるコントローラの構築の問題について検討する。
我々は,高額なテキストゲームアノテーションを不要にしつつ,表現力のある目標仕様を提供する指示として参照ビデオに従うことを提案する。
新しい学習フレームワークは、構造化された目標空間を誘導するビデオ命令エンコーダを作成しながら、ゲームプレイビデオからそのような指示追従コントローラを学習できるようにする。
我々はエージェントGROOTを、因果変換器をベースとしたシンプルで効果的なエンコーダデコーダアーキテクチャで実装する。
我々は,minecraft skillforgeベンチマークを用いて,オープンワールドと人間プレイヤーのgrootを評価する。
eloの評価は、grootが人間と機械のギャップを縮め、最高のジェネラリストエージェントのベースラインよりも70%の勝利率を示していることをはっきりと示している。
誘導ゴール空間の質的解析は、ゴール構成や複雑なゲームプレイ行動合成など、いくつかの興味深い創発的特性をさらに示している。
プロジェクトページはhttps://craftjarvis-groot.github.ioで閲覧できる。
関連論文リスト
- Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation [8.931633531104021]
SAS(Spatially-Aware Speaker)は、環境の構造的知識と意味的知識の両方を用いてよりリッチな命令を生成する命令生成装置である。
提案手法は,既存の命令生成モデルより優れ,標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-09-09T13:12:11Z) - Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。
ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-30T17:56:54Z) - Verifiably Following Complex Robot Instructions with Foundation Models [16.564788361518197]
人々は、柔軟に制約を表現し、任意のランドマークを参照し、ロボットに指示する際の検証を望みます。
本稿では,ロボットが表現的かつ複雑なオープンエンド命令を確実に追従できるような,動き計画のための言語指導基盤を提案する。
LIMは、インストラクターの意図したロボットのアライメントを明らかにする象徴的な指示表現を構築する。
論文 参考訳(メタデータ) (2024-02-18T08:05:54Z) - Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - KITE: Keypoint-Conditioned Policies for Semantic Manipulation [40.63568980167196]
Keypoints + Instructions to Execution (KITE) はセマンティック操作のための2段階のフレームワークである。
まず、2D画像キーポイントを通して視覚シーンに入力命令を接地する。
KITEは学習したキーポイント条件のスキルを実行し、命令を実行する。
論文 参考訳(メタデータ) (2023-06-29T00:12:21Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Unsupervised Discovery of Actions in Instructional Videos [86.77350242461803]
我々は,様々な指導ビデオから構造化された人間のタスクの原子的動作を学習するための教師なしのアプローチを提案する。
本稿では,映像の時間的セグメンテーションのための逐次自己回帰モデルを提案する。
我々の手法は、最先端の教師なし手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2021-06-28T14:05:01Z) - Playable Video Generation [47.531594626822155]
我々は,ユーザが生成した映像を,ビデオゲームのように毎回個別のアクションを選択することで制御できるようにすることを目標とする。
タスクの難しさは、意味的に一貫性のあるアクションを学習することと、ユーザ入力に条件付けされたリアルなビデオを生成することの両方にある。
本稿では,ビデオの大規模なデータセットに基づいて,自己教師型で訓練されたPVGのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-28T18:55:58Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。