論文の概要: Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2104.04167v1
- Date: Fri, 9 Apr 2021 02:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:13:49.380247
- Title: Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation
- Title(参考訳): what and know where: a object-and-room informed bert for indoor vision-language navigation
- Authors: Yuankai Qi, Zizheng Pan, Yicong Hong, Ming-Hsuan Yang, Anton van den
Hengel, Qi Wu
- Abstract要約: VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
- 参考スコア(独自算出の注目度): 120.90387630691816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to navigate to a
remote location on the basis of natural-language instructions and a set of
photo-realistic panoramas. Most existing methods take words in instructions and
discrete views of each panorama as the minimal unit of encoding. However, this
requires a model to match different textual landmarks in instructions (e.g.,
TV, table) against the same view feature. In this work, we propose an
object-informed sequential BERT to encode visual perceptions and linguistic
instructions at the same fine-grained level, namely objects and words, to
facilitate the matching between visual and textual entities and hence "know
what". Our sequential BERT enables the visual-textual clues to be interpreted
in light of the temporal context, which is crucial to multi-round VLN tasks.
Additionally, we enable the model to identify the relative direction (e.g.,
left/right/front/back) of each navigable location and the room type (e.g.,
bedroom, kitchen) of its current and final navigation goal, namely "know
where", as such information is widely mentioned in instructions implying the
desired next and final locations. Extensive experiments demonstrate the
effectiveness compared against several state-of-the-art methods on three indoor
VLN tasks: REVERIE, NDH, and R2R.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアルパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
しかし、これには異なるテキストのランドマーク(例えば、テレビ、テーブル)を同じビュー機能とマッチさせるモデルが必要となる。
本研究では,視覚的知覚と言語的指示,すなわちオブジェクトと単語を同一の粒度レベルで符号化し,視覚的実体とテキスト的実体のマッチングを容易にし,したがって「何を知る」ためのオブジェクトインフォームドシーケンシャルBERTを提案する。
我々のシーケンシャルBERTは、複数のVLNタスクに欠かせない時間的文脈に照らして、視覚的・テキスト的手がかりを解釈することができる。
さらに,各ナビゲーション可能な位置の相対方向(例えば,左/右/フロント/バック)と,現在および最終ナビゲーション目標のルームタイプ(例えば,寝室,キッチン),すなわち"know where"を識別することができる。
3つの室内VLNタスク(REVERIE, NDH, R2R)における最先端手法との比較実験を行った。
関連論文リスト
- Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts [37.20272055902246]
Vision-and-Language Navigation with Multi-Modal Prompts (VLN-MP) は、自然言語と画像の両方を命令に統合することにより、従来のVLNを増強する新しいタスクである。
VLN-MPは、テキストのみのプロンプトを効果的に扱うことで後方互換性を維持するだけでなく、異なる量と視覚的プロンプトの関連性を一貫して示す。
論文 参考訳(メタデータ) (2024-06-04T11:06:13Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。