論文の概要: Think Before You Act: Unified Policy for Interleaving Language Reasoning
with Actions
- arxiv url: http://arxiv.org/abs/2304.11063v1
- Date: Tue, 18 Apr 2023 16:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-30 08:05:49.518967
- Title: Think Before You Act: Unified Policy for Interleaving Language Reasoning
with Actions
- Title(参考訳): 行動の前に考える - 行動を伴う言語推論の統一政策
- Authors: Lina Mezghani and Piotr Bojanowski and Karteek Alahari and Sainbayar
Sukhbaatar
- Abstract要約: オフラインデータ上で、同様の次のステップ予測目標でトランスフォーマーをトレーニングする方法を示す。
本稿では,言語推論とアクションを一つのポリシーで統一する新しい手法を提案する。
具体的には、単語出力によるトランスフォーマーポリシーを強化し、アクションにインターリーブされたテキストキャプションを生成する。
- 参考スコア(独自算出の注目度): 21.72567982148215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of transformer models trained with a language modeling objective
brings a promising opportunity to the reinforcement learning framework.
Decision Transformer is a step towards this direction, showing how to train
transformers with a similar next-step prediction objective on offline data.
Another important development in this area is the recent emergence of
large-scale datasets collected from the internet, such as the ones composed of
tutorial videos with captions where people talk about what they are doing. To
take advantage of this language component, we propose a novel method for
unifying language reasoning with actions in a single policy. Specifically, we
augment a transformer policy with word outputs, so it can generate textual
captions interleaved with actions. When tested on the most challenging task in
BabyAI, with captions describing next subgoals, our reasoning policy
consistently outperforms the caption-free baseline.
- Abstract(参考訳): 言語モデリングの目的でトレーニングされたトランスフォーマーモデルの成功は、強化学習フレームワークに有望な機会をもたらす。
Decision Transformerはこの方向への一歩であり、オフラインデータ上で同様の次のステップの予測目標でトランスフォーマーをトレーニングする方法を示している。
この領域におけるもう1つの重要な展開は、インターネットから収集された大規模なデータセットの出現である。
そこで本稿では,この言語コンポーネントを活用するために,単一ポリシーにおける行動を伴う言語推論を統一する手法を提案する。
具体的には、単語出力によるトランスフォーマーポリシーを強化し、アクションにインターリーブされたテキストキャプションを生成する。
BabyAIの最も困難なタスクで、次のサブゴールを説明するキャプションでテストすると、私たちの推論ポリシーはキャプションのないベースラインを一貫して上回ります。
関連論文リスト
- LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning [19.801187860991117]
この新しいLanguage-Motion PretrainingモデルであるLaMPを紹介する。
LaMPは、モーションインフォームティブなテキスト埋め込みを生成し、生成されたモーションシーケンスの関連性とセマンティックスを大幅に強化する。
キャプションでは,言語非表現の動作特徴を持つ大きな言語モデルを微調整し,強力な動きキャプションモデルを開発する。
論文 参考訳(メタデータ) (2024-10-09T17:33:03Z) - Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。
ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。
これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文 参考訳(メタデータ) (2023-08-16T15:00:50Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - Summarize the Past to Predict the Future: Natural Language Descriptions
of Context Boost Multimodal Object Interaction Anticipation [72.74191015833397]
マルチモーダルトランスアーキテクチャであるTransFusionを提案する。
アクションコンテキストを要約することで、言語の表現力を利用する。
我々のモデルはより効率的なエンドツーエンド学習を可能にします。
論文 参考訳(メタデータ) (2023-01-22T21:30:12Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Survey: Transformer based Video-Language Pre-training [28.870441287367825]
本調査は,ビデオ言語学習のためのトランスフォーマーに基づく事前学習手法の概要を概観することを目的としている。
まず、まず、注意機構、位置符号化などを含む背景知識としてトランスフォーマートラクチャーを紹介する。
トランスモデルをシングルストリームとマルチストリーム構造に分類し、イノベーションを強調し、パフォーマンスを比較する。
論文 参考訳(メタデータ) (2021-09-21T02:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。