論文の概要: STEVE-1: A Generative Model for Text-to-Behavior in Minecraft
- arxiv url: http://arxiv.org/abs/2306.00937v2
- Date: Mon, 5 Jun 2023 17:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 11:10:46.153646
- Title: STEVE-1: A Generative Model for Text-to-Behavior in Minecraft
- Title(参考訳): STEVE-1:Minecraftにおけるテキスト・ツー・ビヘイビア生成モデル
- Authors: Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila
McIlraith
- Abstract要約: 本研究は、MinecraftのSTEVE-1と呼ばれる命令調整ビデオ事前学習モデルを導入する。
STEVE-1は、事前訓練されたVPTモデルをMineCLIPの潜伏空間のコマンドに従うように適応させ、テキストから潜伏コードを予測するために事前訓練する。
VPTやMineCLIPのような事前訓練されたモデルを活用することで、STEVE-1はトレーニングに60ドルしかかからず、マインクラフトで様々な短距離のオープンエンドテキストやビジュアルインストラクションをフォローできる。
- 参考スコア(独自算出の注目度): 27.584811817655357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing AI models that respond to text instructions is challenging,
especially for sequential decision-making tasks. This work introduces an
instruction-tuned Video Pretraining (VPT) model for Minecraft called STEVE-1,
demonstrating that the unCLIP approach, utilized in DALL-E 2, is also effective
for creating instruction-following sequential decision-making agents. STEVE-1
is trained in two steps: adapting the pretrained VPT model to follow commands
in MineCLIP's latent space, then training a prior to predict latent codes from
text. This allows us to finetune VPT through self-supervised behavioral cloning
and hindsight relabeling, bypassing the need for costly human text annotations.
By leveraging pretrained models like VPT and MineCLIP and employing best
practices from text-conditioned image generation, STEVE-1 costs just $60 to
train and can follow a wide range of short-horizon open-ended text and visual
instructions in Minecraft. STEVE-1 sets a new bar for open-ended instruction
following in Minecraft with low-level controls (mouse and keyboard) and raw
pixel inputs, far outperforming previous baselines. We provide experimental
evidence highlighting key factors for downstream performance, including
pretraining, classifier-free guidance, and data scaling. All resources,
including our model weights, training scripts, and evaluation tools are made
available for further research.
- Abstract(参考訳): テキスト命令に応答するAIモデルの構築は、特にシーケンシャルな意思決定タスクでは難しい。
本研究では,DALL-E 2 で使用される unCLIP アプローチが命令追従型意思決定エージェントの創出にも有効であることを示す,Minecraft 用の命令追従型 Video Pretraining (VPT) モデルである STEVE-1 を導入する。
STEVE-1は、事前訓練されたVPTモデルをMineCLIPの潜伏空間のコマンドに従うように適応させ、テキストから潜伏コードを予測するために事前訓練する。
これにより、コストのかかる人的テキストアノテーションの必要性を回避し、自己管理された行動クローニングと後向きのレザベリングを通じてVPTを微調整することができます。
VPTやMineCLIPのような事前訓練されたモデルを活用し、テキスト条件の画像生成のベストプラクティスを採用することで、STEVE-1はトレーニングに60ドルしかかからず、マインクラフトで幅広い短距離のオープンエンドテキストとビジュアルインストラクションをフォローできる。
STEVE-1はMinecraftに続き、低レベルなコントロール(マウスとキーボード)と生のピクセル入力を備えたオープンエンド命令のための新しいバーを設定。
我々は,事前学習,分類子なし指導,データスケーリングなど,下流のパフォーマンスの重要な要因を明らかにする実験的なエビデンスを提供する。
モデルウェイト、トレーニングスクリプト、評価ツールを含むすべてのリソースが、さらなる研究のために利用可能です。
関連論文リスト
- Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search [17.360982091304137]
テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。
しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
論文 参考訳(メタデータ) (2023-03-08T10:41:22Z) - SGL-PT: A Strong Graph Learner with Graph Prompt Tuning [36.650472660276]
そこで我々は,SGL-PTという新しいフレームワークを提案し,学習戦略であるPre-train, Prompt, Predict'に従う。
具体的には、生成的かつコントラスト的な自己教師付きグラフ学習の相補的メリットを得られるSGLと呼ばれる、強力で普遍的な事前学習タスクを提起する。
また, グラフ分類タスクを目標として, 事前学習と微調整を統一し, 従来のテキストタスクと同様の形式で下流タスクを再構成する, 新たな動詞フリープロンプト関数を設計する。
論文 参考訳(メタデータ) (2023-02-24T04:31:18Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。