論文の概要: Instruction-Following Agents with Jointly Pre-Trained Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2210.13431v1
- Date: Mon, 24 Oct 2022 17:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 21:08:56.606033
- Title: Instruction-Following Agents with Jointly Pre-Trained Vision-Language
Models
- Title(参考訳): 共同学習型ビジョンランゲージモデルを用いた指示追従エージェント
- Authors: Hao Liu, Lisa Lee, Kimin Lee, Pieter Abbeel
- Abstract要約: 本稿では,視覚環境下での指示追従課題をロボットが解くためのモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 95.70039658112873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are excellent at understanding language and vision to accomplish a
wide range of tasks. In contrast, creating general instruction-following
embodied agents remains a difficult challenge. Prior work that uses pure
language-only models lack visual grounding, making it difficult to connect
language instructions with visual observations. On the other hand, methods that
use pre-trained vision-language models typically come with divided language and
visual representations, requiring designing specialized network architecture to
fuse them together. We propose a simple yet effective model for robots to solve
instruction-following tasks in vision-based environments. Our \ours method
consists of a multimodal transformer that encodes visual observations and
language instructions, and a policy transformer that predicts actions based on
encoded representations. The multimodal transformer is pre-trained on millions
of image-text pairs and natural language text, thereby producing generic
cross-modal representations of observations and instructions. The policy
transformer keeps track of the full history of observations and actions, and
predicts actions autoregressively. We show that this unified transformer model
outperforms all state-of-the-art pre-trained or trained-from-scratch methods in
both single-task and multi-task settings. Our model also shows better model
scalability and generalization ability than prior work.
- Abstract(参考訳): 人間は言語やビジョンを理解するのに優れており、幅広いタスクをこなす。
対照的に、一般的な指示追従型エージェントの作成は難しい課題である。
純粋言語のみのモデルを使用する以前の作業では、視覚的な接地が欠如しており、言語命令と視覚的な観察をつなぐことが困難になっている。
一方、事前訓練された視覚言語モデルを使用する手法は、一般的に言語と視覚表現を分割し、それらを融合させるために特殊なネットワークアーキテクチャを設計する必要がある。
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
我々のShaours法は、視覚観察と言語指示を符号化するマルチモーダルトランスフォーマーと、符号化された表現に基づいてアクションを予測するポリシートランスフォーマーから構成される。
マルチモーダル変換器は、数百万のイメージテキストペアと自然言語テキストで事前訓練され、観察と指示の一般的なクロスモーダル表現を生成する。
ポリシートランスフォーマは観察と行動の全履歴を追跡し、自己回帰的に行動を予測する。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのメソッドよりも優れていることを示す。
我々のモデルは、事前の作業よりも優れたモデルスケーラビリティと一般化能力を示す。
関連論文リスト
- TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Vision Language Transformers: A Survey [0.9137554315375919]
イメージを記述するキャプションに関する質問に答えたり、生成したりするといった視覚言語タスクは、コンピュータが実行するのが難しいタスクである。
最近の研究は、ciptvaswani 2017で導入された事前訓練されたトランスフォーマーアーキテクチャを視覚言語モデリングに適用している。
トランスフォーマーモデルは、以前のビジョン言語モデルよりも性能と汎用性を大幅に改善した。
論文 参考訳(メタデータ) (2023-07-06T19:08:56Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Pre-training image-language transformers for open-vocabulary tasks [53.446599611203474]
本稿では,様々なタスクの混合に基づく視覚・言語トランスフォーマーモデルに対する事前学習手法を提案する。
本稿では,事前学習における画像テキストキャプションデータの利用について検討する。
本研究では,視覚質問応答,視覚的エンターテイメント,キャプションなど,テキスト生成型視覚+言語タスクの手法の評価を行い,標準的な事前学習手法よりも大きな効果を示した。
論文 参考訳(メタデータ) (2022-09-09T16:11:11Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。