論文の概要: ULN: Towards Underspecified Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2210.10020v1
- Date: Tue, 18 Oct 2022 17:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:19:23.632581
- Title: ULN: Towards Underspecified Vision-and-Language Navigation
- Title(参考訳): ULN:未仕様の視覚・言語ナビゲーションを目指して
- Authors: Weixi Feng, Tsu-Jui Fu, Yujie Lu, William Yang Wang
- Abstract要約: Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
- 参考スコア(独自算出の注目度): 77.81257404252132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) is a task to guide an embodied agent
moving to a target position using language instructions. Despite the
significant performance improvement, the wide use of fine-grained instructions
fails to characterize more practical linguistic variations in reality. To fill
in this gap, we introduce a new setting, namely Underspecified
vision-and-Language Navigation (ULN), and associated evaluation datasets. ULN
evaluates agents using multi-level underspecified instructions instead of
purely fine-grained or coarse-grained, which is a more realistic and general
setting. As a primary step toward ULN, we propose a VLN framework that consists
of a classification module, a navigation agent, and an
Exploitation-to-Exploration (E2E) module. Specifically, we propose to learn
Granularity Specific Sub-networks (GSS) for the agent to ground multi-level
instructions with minimal additional parameters. Then, our E2E module estimates
grounding uncertainty and conducts multi-step lookahead exploration to improve
the success rate further. Experimental results show that existing VLN models
are still brittle to multi-level language underspecification. Our framework is
more robust and outperforms the baselines on ULN by ~10% relative success rate
across all levels.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、言語命令を用いて標的位置へ移動するエンボディエージェントを誘導するタスクである。
大幅な性能向上にもかかわらず、粒度の細かい命令が広く使われることは、現実のより実践的な言語的なバリエーションを特徴づけることに失敗する。
このギャップを埋めるために、新しい設定、すなわち、Underified Vision-and-Language Navigation (ULN)と関連する評価データセットを導入する。
ULNは、より現実的で一般的な設定である、純粋にきめ細かな粒度や粗い粒度ではなく、マルチレベルの不特定命令を用いてエージェントを評価する。
ULNへの第一歩として,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・探索(E2E)モジュールで構成されるVLNフレームワークを提案する。
具体的には,エージェントが最小限のパラメータでマルチレベル命令をグラウンドする粒度特定サブネットワーク(gss)を学習することを提案する。
そして,我々のE2Eモジュールは,不確実性を推定し,さらに成功率を向上させるために多段階の探索を行う。
実験の結果、既存のvlnモデルは、マルチレベル言語に弱いことが判明した。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対成功率で約10%上回る。
関連論文リスト
- OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [65.25839671641218]
そこで本研究では,潜在的な人的原因を考慮に入れた各種命令誤りを導入した新しいベンチマークデータセットを提案する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
また, エラー検出とローカライゼーションにおいて, 最適な性能を実現するための, クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:36:15Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - MLANet: Multi-Level Attention Network with Sub-instruction for
Continuous Vision-and-Language Navigation [6.478089983471946]
Vision-and-Language Navigation (VLN) は、言語と視覚の監督を通じてのみ見えない環境でナビゲートするためのインテリジェントエージェントを開発することを目的としている。
最近提案された連続的な設定(連続VLN)では、エージェントは自由な3D空間で動作しなければなりません。
連続VLNの性能向上のために、我々はマルチレベル命令理解手順を設計し、新しいモデルであるマルチレベル注意ネットワーク(MLANet)を提案する。
論文 参考訳(メタデータ) (2023-03-02T16:26:14Z) - Airbert: In-domain Pretraining for Vision-and-Language Navigation [91.03849833486974]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。
近年の方法は、VLN剤の一般化を改善するための事前学習である。
大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。
論文 参考訳(メタデータ) (2021-08-20T10:58:09Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。