Fugu-MT 論文翻訳(概要): Zero-Shot Compositional Policy Learning via Language Grounding

論文の概要: Zero-Shot Compositional Policy Learning via Language Grounding

arxiv url: http://arxiv.org/abs/2004.07200v2
Date: Mon, 17 Apr 2023 17:36:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 02:07:09.489798
Title: Zero-Shot Compositional Policy Learning via Language Grounding
Title（参考訳）: 言語接地によるゼロショット構成政策学習
Authors: Tianshi Cao, Jingkang Wang, Yining Zhang, Sivabalan Manivasagam
Abstract要約: 人間は、言語記述のような世界に関する事前の知識を活用することで、新しいタスクに迅速に適応することができる。本研究では,環境のダイナミクスを視覚的外観から切り離す新たな研究プラットフォームであるBabyAI++を紹介する。現在の言語誘導型RL/IL技術は、トレーニング環境に過度に適合し、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。
参考スコア（独自算出の注目度）: 13.45138913186308
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent breakthroughs in reinforcement learning (RL) and imitation learning (IL), existing algorithms fail to generalize beyond the training environments. In reality, humans can adapt to new tasks quickly by leveraging prior knowledge about the world such as language descriptions. To facilitate the research on language-guided agents with domain adaption, we propose a novel zero-shot compositional policy learning task, where the environments are characterized as a composition of different attributes. Since there are no public environments supporting this study, we introduce a new research platform BabyAI++ in which the dynamics of environments are disentangled from visual appearance. At each episode, BabyAI++ provides varied vision-dynamics combinations along with corresponding descriptive texts. To evaluate the adaption capability of learned agents, a set of vision-dynamics pairings are held-out for testing on BabyAI++. Unsurprisingly, we find that current language-guided RL/IL techniques overfit to the training environments and suffer from a huge performance drop when facing unseen combinations. In response, we propose a multi-modal fusion method with an attention mechanism to perform visual language-grounding. Extensive experiments show strong evidence that language grounding is able to improve the generalization of agents across environments with varied dynamics.
Abstract（参考訳）: 近年の強化学習(RL)と模倣学習(IL)の進歩にもかかわらず、既存のアルゴリズムは訓練環境を超えて一般化することができない。実際、人間は言語記述のような世界に関する事前知識を活用することで、新しいタスクに迅速に適応することができる。ドメイン適応型言語誘導エージェントの研究を容易にするために,環境を異なる属性の合成として特徴付ける,ゼロショット合成政策学習タスクを提案する。この研究を支援する公開環境がないため,環境のダイナミクスを視覚的な外観から切り離した新たな研究プラットフォーム babyai++ を導入する。それぞれのエピソードで、babyai++は様々な視覚と力学の組み合わせと対応する記述テキストを提供する。学習エージェントの適応能力を評価するために,BabyAI++でテストする視覚力学ペアリングのセットを保留する。当然のことながら、現在の言語誘導RL/IL技術はトレーニング環境に適合せず、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。そこで本研究では,視覚言語接地を行うための注意機構を備えたマルチモーダル融合手法を提案する。広範な実験により、言語基底化が様々な動的環境にまたがるエージェントの一般化を改善できるという強い証拠が示されている。

関連論文リスト

An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳（メタデータ） (2025-05-29T03:09:15Z)
Training a Generally Curious Agent [86.84089201249104]
PAPRIKAは,言語モデルによる一般的な意思決定機能の開発を可能にする微調整手法である。 PAPRIKAで微調整されたモデルは、学習した意思決定能力を全く見えないタスクに効果的に移行できることを示す実験結果が得られた。これらの結果は、新しいシーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文参考訳（メタデータ） (2025-02-24T18:56:58Z)
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents [6.402396836189286]
本稿では,強化学習のための新しいコントラスト・プロンプト・アンサンブル(ConPE)フレームワークを提案する。視覚言語モデル上に複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。実験では,いくつかの具体的エージェントタスクに対して,ConPEが他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T06:53:00Z)
Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use [16.425032085699698]
具体的エージェントは、人間の言語を活用して、学習タスクの明示的または暗黙的な知識を得る能力を持つことが望ましい。タスク学習を容易にするために、リッチ言語をどのように組み込むかは明確ではない。本稿では,強化学習における言語入力の種類について検討する。
論文参考訳（メタデータ） (2024-10-31T17:59:52Z)
How language models extrapolate outside the training data: A case study in Textualized Gridworld [32.5268320198854]
我々は,次世代の予測や思考の微調整といった従来の手法が,大規模で目に見えない環境での一般化に失敗していることを示す。人間の認知と二重プロセス理論にインスパイアされた言語モデルでは,対話前に認知地図を構築するべきである。
論文参考訳（メタデータ） (2024-06-21T16:10:05Z)
LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文参考訳（メタデータ） (2023-11-29T12:41:55Z)
Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文参考訳（メタデータ） (2023-07-31T17:57:49Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文参考訳（メタデータ） (2022-10-06T17:59:56Z)
Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文参考訳（メタデータ） (2022-09-30T19:56:04Z)
Inner Monologue: Embodied Reasoning through Planning with Language Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文参考訳（メタデータ） (2022-07-12T15:20:48Z)
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。 CLEAR: 言語横断表現と環境非依存表現を提案する。我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文参考訳（メタデータ） (2022-07-05T17:38:59Z)
VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文参考訳（メタデータ） (2020-10-26T18:51:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。