論文の概要: LEBP -- Language Expectation & Binding Policy: A Two-Stream Framework
for Embodied Vision-and-Language Interaction Task Learning Agents
- arxiv url: http://arxiv.org/abs/2203.04637v1
- Date: Wed, 9 Mar 2022 10:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 14:24:08.562300
- Title: LEBP -- Language Expectation & Binding Policy: A Two-Stream Framework
for Embodied Vision-and-Language Interaction Task Learning Agents
- Title(参考訳): LEBP -- 言語期待とバインディングポリシー: 視覚・言語インタラクションタスク学習エージェントのための双方向フレームワーク
- Authors: Haoyu Liu, Yang Liu, Hongkai He and Hangfang Yang
- Abstract要約: 我々はALFREDに取り組むためにLEBP-Language expectation and Binding Policy Moduleを提案する。
LEBPは、言語命令を理解することによってタスクの実行方法を記述する期待を生成する。
次に、バインディングポリシーモジュールを使用して、実際のアクションを特定のシナリオに期待するサブステップをバインドする。
- 参考スコア(独自算出の注目度): 6.678722257481545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People always desire an embodied agent that can perform a task by
understanding language instruction. Moreover, they also want to monitor and
expect agents to understand commands the way they expected. But, how to build
such an embodied agent is still unclear. Recently, people can explore this
problem with the Vision-and-Language Interaction benchmark ALFRED, which
requires an agent to perform complicated daily household tasks following
natural language instructions in unseen scenes. In this paper, we propose LEBP
-- Language Expectation and Binding Policy Module to tackle the ALFRED. The
LEBP contains a two-stream process: 1) It first conducts a language expectation
module to generate an expectation describing how to perform tasks by
understanding the language instruction. The expectation consists of a sequence
of sub-steps for the task (e.g., Pick an apple). The expectation allows people
to access and check the understanding results of instructions before the agent
takes actual actions, in case the task might go wrong. 2) Then, it uses the
binding policy module to bind sub-steps in expectation to actual actions to
specific scenarios. Actual actions include navigation and object manipulation.
Experimental results suggest our approach achieves comparable performance to
currently published SOTA methods and can avoid large decay from seen scenarios
to unseen scenarios.
- Abstract(参考訳): 人々はいつも、言語指導を理解することでタスクを遂行できる具体的エージェントを欲しがる。
さらに彼らは、エージェントが期待通りにコマンドを理解するように監視し、期待することも望んでいる。
しかし、このような具体化エージェントの作り方はまだ不明だ。
このベンチマークでは、エージェントが自然言語命令に従って、目に見えないシーンで複雑な日常生活のタスクを実行する必要がある。
本稿では,ALFREDに取り組むためのLEBP-Language expectation and Binding Policy Moduleを提案する。
LEBPは2ストリームプロセスを含む。
1)最初に言語期待モジュールを実行し、言語命令を理解することによってタスクの実行方法を記述する期待を生成する。
期待はタスクの一連のサブステップ(例えばリンゴを選ぶ)で構成される。
この期待により、エージェントが実際のアクションをする前に、タスクがうまくいかなかった場合、命令の理解結果にアクセスしてチェックすることができる。
2) 次に、バインディングポリシーモジュールを使用して、特定のシナリオに対する実際のアクションに期待するサブステップをバインドする。
実際のアクションにはナビゲーションとオブジェクト操作が含まれる。
実験結果から,本手法はsoma法に匹敵する性能を達成でき,想定されたシナリオから見当たらないシナリオへの大きな減衰を回避できることが示唆された。
関連論文リスト
- ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - Large Language Models as Generalizable Policies for Embodied Tasks [50.870491905776305]
大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
論文 参考訳(メタデータ) (2023-10-26T18:32:05Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - Accessible Instruction-Following Agent [0.0]
UVLNは、言語間視覚言語ナビゲーションのための新しい機械翻訳命令拡張フレームワークである。
我々は、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。
Room Across Roomデータセットによる実験は、我々のアプローチの有効性を証明する。
論文 参考訳(メタデータ) (2023-05-08T23:57:26Z) - Robustness of Learning from Task Instructions [15.462970803323563]
従来の教師付き学習は、主に個々のタスクに取り組み、タスク固有の大きな例のトレーニングを必要とする。
新しいタスクに迅速かつ容易に一般化できるシステムを構築するために、タスク命令を監督の新たなトレンドとして採用している。
本研究は,新しいタスクの指示が (i) 操作された場合, (ii) 言い換えられた場合, (iii) 異なるレベルの簡潔さからシステムロバスト性を調べる。
論文 参考訳(メタデータ) (2022-12-07T17:54:59Z) - ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts [92.92047324641622]
視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-05-31T02:41:31Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Visual-and-Language Navigation: A Survey and Taxonomy [1.0742675209112622]
本稿では,ビジュアル・アンド・ランゲージ・ナビゲーション(VLN)タスクに関する総合的な調査を行う。
命令が与えられたら、タスクはシングルターンとマルチターンに分けられる。
この分類学は、研究者が特定のタスクの要点をよりよく把握し、将来の研究の方向性を特定することを可能にする。
論文 参考訳(メタデータ) (2021-08-26T01:51:18Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。