論文の概要: Zero-Shot Compositional Policy Learning via Language Grounding
- arxiv url: http://arxiv.org/abs/2004.07200v2
- Date: Mon, 17 Apr 2023 17:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 02:07:09.489798
- Title: Zero-Shot Compositional Policy Learning via Language Grounding
- Title(参考訳): 言語接地によるゼロショット構成政策学習
- Authors: Tianshi Cao, Jingkang Wang, Yining Zhang, Sivabalan Manivasagam
- Abstract要約: 人間は、言語記述のような世界に関する事前の知識を活用することで、新しいタスクに迅速に適応することができる。
本研究では,環境のダイナミクスを視覚的外観から切り離す新たな研究プラットフォームであるBabyAI++を紹介する。
現在の言語誘導型RL/IL技術は、トレーニング環境に過度に適合し、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。
- 参考スコア(独自算出の注目度): 13.45138913186308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent breakthroughs in reinforcement learning (RL) and imitation
learning (IL), existing algorithms fail to generalize beyond the training
environments. In reality, humans can adapt to new tasks quickly by leveraging
prior knowledge about the world such as language descriptions. To facilitate
the research on language-guided agents with domain adaption, we propose a novel
zero-shot compositional policy learning task, where the environments are
characterized as a composition of different attributes. Since there are no
public environments supporting this study, we introduce a new research platform
BabyAI++ in which the dynamics of environments are disentangled from visual
appearance. At each episode, BabyAI++ provides varied vision-dynamics
combinations along with corresponding descriptive texts. To evaluate the
adaption capability of learned agents, a set of vision-dynamics pairings are
held-out for testing on BabyAI++. Unsurprisingly, we find that current
language-guided RL/IL techniques overfit to the training environments and
suffer from a huge performance drop when facing unseen combinations. In
response, we propose a multi-modal fusion method with an attention mechanism to
perform visual language-grounding. Extensive experiments show strong evidence
that language grounding is able to improve the generalization of agents across
environments with varied dynamics.
- Abstract(参考訳): 近年の強化学習(RL)と模倣学習(IL)の進歩にもかかわらず、既存のアルゴリズムは訓練環境を超えて一般化することができない。
実際、人間は言語記述のような世界に関する事前知識を活用することで、新しいタスクに迅速に適応することができる。
ドメイン適応型言語誘導エージェントの研究を容易にするために,環境を異なる属性の合成として特徴付ける,ゼロショット合成政策学習タスクを提案する。
この研究を支援する公開環境がないため,環境のダイナミクスを視覚的な外観から切り離した新たな研究プラットフォーム babyai++ を導入する。
それぞれのエピソードで、babyai++は様々な視覚と力学の組み合わせと対応する記述テキストを提供する。
学習エージェントの適応能力を評価するために,BabyAI++でテストする視覚力学ペアリングのセットを保留する。
当然のことながら、現在の言語誘導RL/IL技術はトレーニング環境に適合せず、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。
そこで本研究では,視覚言語接地を行うための注意機構を備えたマルチモーダル融合手法を提案する。
広範な実験により、言語基底化が様々な動的環境にまたがるエージェントの一般化を改善できるという強い証拠が示されている。
関連論文リスト
- Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use [16.425032085699698]
具体的エージェントは、人間の言語を活用して、学習タスクの明示的または暗黙的な知識を得る能力を持つことが望ましい。
タスク学習を容易にするために、リッチ言語をどのように組み込むかは明確ではない。
本稿では,強化学習における言語入力の種類について検討する。
論文 参考訳(メタデータ) (2024-10-31T17:59:52Z) - How language models extrapolate outside the training data: A case study in Textualized Gridworld [32.5268320198854]
我々は,次世代の予測や思考の微調整といった従来の手法が,大規模で目に見えない環境での一般化に失敗していることを示す。
人間の認知と二重プロセス理論にインスパイアされた言語モデルでは,対話前に認知地図を構築するべきである。
論文 参考訳(メタデータ) (2024-06-21T16:10:05Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement
Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。
環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。
目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文 参考訳(メタデータ) (2020-10-26T18:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。