論文の概要: GROOT: Learning to Follow Instructions by Watching Gameplay Videos
- arxiv url: http://arxiv.org/abs/2310.08235v2
- Date: Wed, 29 Nov 2023 01:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:42:09.388818
- Title: GROOT: Learning to Follow Instructions by Watching Gameplay Videos
- Title(参考訳): GROOT:ゲームプレイ動画を視聴して指導をフォローする学習
- Authors: Shaofei Cai, Bowei Zhang, Zihao Wang, Xiaojian Ma, Anji Liu, Yitao
Liang
- Abstract要約: 本研究では,オープンワールド環境におけるオープンエンドインストラクションを追従できるコントローラを構築する際の課題について検討する。
我々は,表現力のある目標仕様を提供する指示として,参照ビデオに従うことを提案する。
ゲームプレイビデオからこのような命令追従コントローラを学習するための新しい学習フレームワークが導出されている。
- 参考スコア(独自算出の注目度): 27.33718710879657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of building a controller that can follow open-ended
instructions in open-world environments. We propose to follow reference videos
as instructions, which offer expressive goal specifications while eliminating
the need for expensive text-gameplay annotations. A new learning framework is
derived to allow learning such instruction-following controllers from gameplay
videos while producing a video instruction encoder that induces a structured
goal space. We implement our agent GROOT in a simple yet effective
encoder-decoder architecture based on causal transformers. We evaluate GROOT
against open-world counterparts and human players on a proposed Minecraft
SkillForge benchmark. The Elo ratings clearly show that GROOT is closing the
human-machine gap as well as exhibiting a 70% winning rate over the best
generalist agent baseline. Qualitative analysis of the induced goal space
further demonstrates some interesting emergent properties, including the goal
composition and complex gameplay behavior synthesis. The project page is
available at https://craftjarvis-groot.github.io.
- Abstract(参考訳): オープンワールド環境においてオープンエンド命令を追従できるコントローラの構築の問題について検討する。
我々は,高額なテキストゲームアノテーションを不要にしつつ,表現力のある目標仕様を提供する指示として参照ビデオに従うことを提案する。
新しい学習フレームワークは、構造化された目標空間を誘導するビデオ命令エンコーダを作成しながら、ゲームプレイビデオからそのような指示追従コントローラを学習できるようにする。
我々はエージェントGROOTを、因果変換器をベースとしたシンプルで効果的なエンコーダデコーダアーキテクチャで実装する。
我々は,minecraft skillforgeベンチマークを用いて,オープンワールドと人間プレイヤーのgrootを評価する。
eloの評価は、grootが人間と機械のギャップを縮め、最高のジェネラリストエージェントのベースラインよりも70%の勝利率を示していることをはっきりと示している。
誘導ゴール空間の質的解析は、ゴール構成や複雑なゲームプレイ行動合成など、いくつかの興味深い創発的特性をさらに示している。
プロジェクトページはhttps://craftjarvis-groot.github.ioで閲覧できる。
関連論文リスト
- Large-Scale Actionless Video Pre-Training via Discrete Diffusion for
Efficient Policy Learning [73.69573252516761]
本稿では,人間のビデオにおける生成前訓練とアクションラベル付きロボットビデオのポリシー微調整を組み合わせた新しいフレームワークを提案する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Verifiably Following Complex Robot Instructions with Foundation Models [18.09584127867647]
ロボットが表現的・長期的指示に従うことを可能にするために,動作計画(LIMP)のための言語指導基盤を提案する。
LIMPは、インストラクターの意図したモチベーションとロボットのアライメントを明らかにする説明可能な命令表現を構築する。
実環境におけるLIMPを,35の複合時間的語彙命令の集合で実証する。
論文 参考訳(メタデータ) (2024-02-18T08:05:54Z) - Learning Vision-and-Language Navigation from YouTube Videos [89.1919348607439]
視覚言語ナビゲーション(VLN)は、自然言語命令を用いて現実的な3D環境をナビゲートするために、具体化されたエージェントを必要とする。
YouTubeには大量のハウスツアービデオがあり、豊富なナビゲーション体験とレイアウト情報を提供している。
住宅ツアービデオから合理的な経路指示ペアとエージェントを事前訓練した大規模データセットを作成する。
論文 参考訳(メタデータ) (2023-07-22T05:26:50Z) - KITE: Keypoint-Conditioned Policies for Semantic Manipulation [40.63568980167196]
Keypoints + Instructions to Execution (KITE) はセマンティック操作のための2段階のフレームワークである。
まず、2D画像キーポイントを通して視覚シーンに入力命令を接地する。
KITEは学習したキーポイント条件のスキルを実行し、命令を実行する。
論文 参考訳(メタデータ) (2023-06-29T00:12:21Z) - Style-transfer based Speech and Audio-visual Scene Understanding for
Robot Action Sequence Acquisition from Videos [40.012813353904875]
本稿では,教示ビデオからロボット行動系列を生成する手法を提案する。
そこで我々は,ロボットが調理ビデオから取得したシーケンスを実行する,様々な調理動作を行うシステムを構築した。
論文 参考訳(メタデータ) (2023-06-27T17:37:53Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Unsupervised Discovery of Actions in Instructional Videos [86.77350242461803]
我々は,様々な指導ビデオから構造化された人間のタスクの原子的動作を学習するための教師なしのアプローチを提案する。
本稿では,映像の時間的セグメンテーションのための逐次自己回帰モデルを提案する。
我々の手法は、最先端の教師なし手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2021-06-28T14:05:01Z) - Playable Video Generation [47.531594626822155]
我々は,ユーザが生成した映像を,ビデオゲームのように毎回個別のアクションを選択することで制御できるようにすることを目標とする。
タスクの難しさは、意味的に一貫性のあるアクションを学習することと、ユーザ入力に条件付けされたリアルなビデオを生成することの両方にある。
本稿では,ビデオの大規模なデータセットに基づいて,自己教師型で訓練されたPVGのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-28T18:55:58Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。