論文の概要: Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for
Navigation Instruction Generation
- arxiv url: http://arxiv.org/abs/2307.13368v1
- Date: Tue, 25 Jul 2023 09:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 17:45:37.644068
- Title: Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for
Navigation Instruction Generation
- Title(参考訳): kefa: ナビゲーション命令生成のための知識強化および細粒度アライメント型話者
- Authors: Haitian Zeng, Xiaohan Wang, Wenguan Wang, Yi Yang
- Abstract要約: ナビゲーション命令生成のための新しい話者モデルtextscKefaを提案する。
提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現する。
- 参考スコア(独自算出の注目度): 70.76686546473994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel speaker model \textsc{Kefa} for navigation instruction
generation. The existing speaker models in Vision-and-Language Navigation
suffer from the large domain gap of vision features between different
environments and insufficient temporal grounding capability. To address the
challenges, we propose a Knowledge Refinement Module to enhance the feature
representation with external knowledge facts, and an Adaptive Temporal
Alignment method to enforce fine-grained alignment between the generated
instructions and the observation sequences. Moreover, we propose a new metric
SPICE-D for navigation instruction evaluation, which is aware of the
correctness of direction phrases. The experimental results on R2R and UrbanWalk
datasets show that the proposed KEFA speaker achieves state-of-the-art
instruction generation performance for both indoor and outdoor scenes.
- Abstract(参考訳): ナビゲーション命令生成のための新しい話者モデル \textsc{kefa} を提案する。
既存のVision-and-Language Navigationの話者モデルは、異なる環境間の視覚的特徴の大きな領域ギャップと時間的接地能力に悩まされている。
課題に対処するために,外部知識事実による特徴表現の強化を目的とした知識再構成モジュールと,生成した命令と観測シーケンスとの微粒なアライメントを実現する適応時間アライメント手法を提案する。
さらに,方向句の正確性を認識したナビゲーション指導評価のための新しい指標SPICE-Dを提案する。
R2RとUrbanWalkのデータセットによる実験結果から,提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現することが示された。
関連論文リスト
- Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation [45.99831101677059]
追従者からのフィードバックを受けて常に更新されるtextscfoam, textscFollower-textscaware speaker textscModelを提案する。
両レベル最適化フレームワークを用いて話者を最適化し、ラベル付きデータ上で追従者を評価することにより、学習信号を得る。
論文 参考訳(メタデータ) (2022-06-09T06:11:07Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Towards Navigation by Reasoning over Spatial Configurations [20.324906029170457]
ナビゲーション指示を視覚知覚に接地する上で,空間的意味論の重要性を示す。
本稿では,空間構成の要素を利用したニューラルエージェントを提案し,ナビゲーションエージェントの推論能力への影響について検討する。
論文 参考訳(メタデータ) (2021-05-14T14:04:23Z) - Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文 参考訳(メタデータ) (2021-04-09T02:44:39Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。