論文の概要: LACMA: Language-Aligning Contrastive Learning with Meta-Actions for
Embodied Instruction Following
- arxiv url: http://arxiv.org/abs/2310.12344v1
- Date: Wed, 18 Oct 2023 21:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 17:47:01.749475
- Title: LACMA: Language-Aligning Contrastive Learning with Meta-Actions for
Embodied Instruction Following
- Title(参考訳): LACMA:メタアクションを用いた言語適応型コントラスト学習
- Authors: Cheng-Fu Yang, Yen-Chun Chen, Jianwei Yang, Xiyang Dai, Lu Yuan,
Yu-Chiang Frank Wang, Kai-Wei Chang
- Abstract要約: 本稿では,メタアクションの概念を導入し,言語命令とエージェントのアクション空間間の意味的ギャップを埋める。
強力なマルチモーダルトランスフォーマーベースラインと比較して、目に見えない環境での絶対的な成功率は4.5%に達する。
- 参考スコア(独自算出の注目度): 142.25438780561603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Transformers have demonstrated an impressive success rate for
Embodied Instruction Following when the environment has been seen in training.
However, they tend to struggle when deployed in an unseen environment. This
lack of generalizability is due to the agent's insensitivity to subtle changes
in natural language instructions. To mitigate this issue, we propose explicitly
aligning the agent's hidden states with the instructions via contrastive
learning. Nevertheless, the semantic gap between high-level language
instructions and the agent's low-level action space remains an obstacle.
Therefore, we further introduce a novel concept of meta-actions to bridge the
gap. Meta-actions are ubiquitous action patterns that can be parsed from the
original action sequence. These patterns represent higher-level semantics that
are intuitively aligned closer to the instructions. When meta-actions are
applied as additional training signals, the agent generalizes better to unseen
environments. Compared to a strong multi-modal Transformer baseline, we achieve
a significant 4.5% absolute gain in success rate in unseen environments of
ALFRED Embodied Instruction Following. Additional analysis shows that the
contrastive objective and meta-actions are complementary in achieving the best
results, and the resulting agent better aligns its states with corresponding
instructions, making it more suitable for real-world embodied agents. The code
is available at: https://github.com/joeyy5588/LACMA.
- Abstract(参考訳): エンド・ツー・エンドトランスフォーマは、訓練中に環境が見えてきたときに実施した実施命令の成功率を実証した。
しかし、目に見えない環境では苦労する傾向があります。
この一般化性の欠如は、エージェントが自然言語命令の微妙な変化に敏感でないためである。
この問題を軽減するために,エージェントの隠れ状態と命令を対照学習で明示的に整合させる手法を提案する。
それでも、ハイレベルな言語命令とエージェントの低レベルなアクション空間とのセマンティックなギャップは依然として障害である。
そこで我々はさらに,このギャップを橋渡しする新しいメタアクション概念を導入する。
メタアクションは、元のアクションシーケンスから解析できるユビキタスなアクションパターンである。
これらのパターンは直感的に命令に近い高レベルな意味論を表す。
メタアクションを追加の訓練信号として適用すると、エージェントは見当たらない環境に一般化する。
強力なマルチモーダルトランスフォーマーベースラインと比較して,ALFREDの未確認環境における絶対的な成功率の4.5%を達成できた。
さらなる分析により、対照的な目的とメタアクションは最良の結果を達成するのに相補的であり、その結果のエージェントは、その状態と対応する命令とをよりよく整合させ、現実世界のエンボダイドエージェントにより適していることが示された。
コードは以下の通り。 https://github.com/joeyy5588/LACMA。
関連論文リスト
- MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control [53.20509532671891]
我々はMinecraftシミュレータ上に構築されたオープンなエンボディエージェントであるMineDreamerを紹介する。
命令実行のステップバイステップを想定するために,CoI(Chain-of-Imagination)機構を用いる。
実験では、MineDreamerは単段階と多段階の命令を着実に従っている。
論文 参考訳(メタデータ) (2024-03-18T17:59:42Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization
for Few-shot Generalization [40.45470744120691]
MEta-gradient regularization for few-shot generalization (SUPMER)による自己改善メタプロンプト学習フレームワーク
本稿では,Meta-gradient regularization for few-shot generalization (SUPMER)を用いた自己改善メタプロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-22T05:04:21Z) - Entity Divider with Language Grounding in Multi-Agent Reinforcement
Learning [28.619845209653274]
マルチエージェント設定におけるポリシーの一般化を促進するための自然言語の利用について検討する。
マルチエージェント強化学習, エンティティディバイザ(EnDi)における言語基盤構築のための新しい枠組みを提案する。
EnDiは、エージェントがエンティティレベルで独立してサブゴナル分割を学習し、関連するエンティティに基づいて環境に作用することを可能にする。
論文 参考訳(メタデータ) (2022-10-25T11:53:52Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - ELLA: Exploration through Learned Language Abstraction [6.809870486883877]
ELLAは、環境によって提供されるスパースな報酬を豊かにするために、単純な低レベルの指示と高レベルの指示と相関する報酬形成アプローチです。
ELLAは、競合言語ベースの報酬形成やノーシェイピング方法と比較して、複数の環境でサンプル効率が大幅に向上しています。
論文 参考訳(メタデータ) (2021-03-10T02:18:46Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。