論文の概要: STEVE-1: A Generative Model for Text-to-Behavior in Minecraft
- arxiv url: http://arxiv.org/abs/2306.00937v3
- Date: Sun, 4 Feb 2024 04:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:15:12.946237
- Title: STEVE-1: A Generative Model for Text-to-Behavior in Minecraft
- Title(参考訳): STEVE-1:Minecraftにおけるテキスト・ツー・ビヘイビア生成モデル
- Authors: Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila
McIlraith
- Abstract要約: 本研究は,命令ラベル付き軌道の大規模なデータセットに頼ることなく,行動生成モデルを生成する手法を提案する。
STEVE-1と呼ばれる命令調整型ビデオ事前訓練(VPT)モデルを作成し、マインクラフトで短時間のオープンエンドテキストとビジュアルインストラクションを追跡できる。
- 参考スコア(独自算出の注目度): 33.61199933424145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing AI models that respond to text instructions is challenging,
especially for sequential decision-making tasks. This work introduces a
methodology, inspired by unCLIP, for instruction-tuning generative models of
behavior without relying on a large dataset of instruction-labeled
trajectories. Using this methodology, we create an instruction-tuned Video
Pretraining (VPT) model called STEVE-1, which can follow short-horizon
open-ended text and visual instructions in Minecraft. STEVE-1 is trained in two
steps: adapting the pretrained VPT model to follow commands in MineCLIP's
latent space, then training a prior to predict latent codes from text. This
allows us to finetune VPT through self-supervised behavioral cloning and
hindsight relabeling, reducing the need for costly human text annotations, and
all for only $60 of compute. By leveraging pretrained models like VPT and
MineCLIP and employing best practices from text-conditioned image generation,
STEVE-1 sets a new bar for open-ended instruction-following in Minecraft with
low-level controls (mouse and keyboard) and raw pixel inputs, far outperforming
previous baselines and robustly completing 12 of 13 tasks in our early-game
evaluation suite. We provide experimental evidence highlighting key factors for
downstream performance, including pretraining, classifier-free guidance, and
data scaling. All resources, including our model weights, training scripts, and
evaluation tools are made available for further research.
- Abstract(参考訳): テキスト命令に応答するAIモデルの構築は、特にシーケンシャルな意思決定タスクでは難しい。
本研究は,UnCLIPにインスパイアされた,命令ラベル付き軌道の大規模なデータセットを頼らずに,行動生成モデルを制御する手法を提案する。
この手法を用いることで,近距離のオープンテキストとマインクラフトの視覚的指示に従うことができるSTEVE-1と呼ばれる命令調整ビデオ事前訓練(VPT)モデルを作成する。
STEVE-1は、事前訓練されたVPTモデルをMineCLIPの潜伏空間のコマンドに従うように適応させ、テキストから潜伏コードを予測するために事前訓練する。
これにより、自己管理された行動クローニングと後向きのレザベリングを通じてVPTを微調整し、コストのかかる人間のテキストアノテーションの必要性を減らし、すべて60ドル程度で計算できます。
VPTやMineCLIPのような事前訓練されたモデルを活用し、テキスト条件付き画像生成のベストプラクティスを活用することで、STEVE-1はMinecraftで低レベルのコントロール(マウスとキーボード)と生のピクセル入力を備えたオープンエンドの命令フォロー用の新しいバーを設定します。
我々は,事前学習,分類子なし指導,データスケーリングなど,下流のパフォーマンスの重要な要因を明らかにする実験的なエビデンスを提供する。
モデルウェイト、トレーニングスクリプト、評価ツールを含むすべてのリソースが、さらなる研究のために利用可能です。
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。
しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文 参考訳(メタデータ) (2023-03-08T10:41:22Z) - SGL-PT: A Strong Graph Learner with Graph Prompt Tuning [36.650472660276]
そこで我々は,SGL-PTという新しいフレームワークを提案し,学習戦略であるPre-train, Prompt, Predict'に従う。
具体的には、生成的かつコントラスト的な自己教師付きグラフ学習の相補的メリットを得られるSGLと呼ばれる、強力で普遍的な事前学習タスクを提起する。
また, グラフ分類タスクを目標として, 事前学習と微調整を統一し, 従来のテキストタスクと同様の形式で下流タスクを再構成する, 新たな動詞フリープロンプト関数を設計する。
論文 参考訳(メタデータ) (2023-02-24T04:31:18Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。