論文の概要: Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2104.04167v1
- Date: Fri, 9 Apr 2021 02:44:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:13:49.380247
- Title: Know What and Know Where: An Object-and-Room Informed Sequential BERT
for Indoor Vision-Language Navigation
- Title(参考訳): what and know where: a object-and-room informed bert for indoor vision-language navigation
- Authors: Yuankai Qi, Zizheng Pan, Yicong Hong, Ming-Hsuan Yang, Anton van den
Hengel, Qi Wu
- Abstract要約: VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
- 参考スコア(独自算出の注目度): 120.90387630691816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to navigate to a
remote location on the basis of natural-language instructions and a set of
photo-realistic panoramas. Most existing methods take words in instructions and
discrete views of each panorama as the minimal unit of encoding. However, this
requires a model to match different textual landmarks in instructions (e.g.,
TV, table) against the same view feature. In this work, we propose an
object-informed sequential BERT to encode visual perceptions and linguistic
instructions at the same fine-grained level, namely objects and words, to
facilitate the matching between visual and textual entities and hence "know
what". Our sequential BERT enables the visual-textual clues to be interpreted
in light of the temporal context, which is crucial to multi-round VLN tasks.
Additionally, we enable the model to identify the relative direction (e.g.,
left/right/front/back) of each navigable location and the room type (e.g.,
bedroom, kitchen) of its current and final navigation goal, namely "know
where", as such information is widely mentioned in instructions implying the
desired next and final locations. Extensive experiments demonstrate the
effectiveness compared against several state-of-the-art methods on three indoor
VLN tasks: REVERIE, NDH, and R2R.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアルパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。
既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。
しかし、これには異なるテキストのランドマーク(例えば、テレビ、テーブル)を同じビュー機能とマッチさせるモデルが必要となる。
本研究では,視覚的知覚と言語的指示,すなわちオブジェクトと単語を同一の粒度レベルで符号化し,視覚的実体とテキスト的実体のマッチングを容易にし,したがって「何を知る」ためのオブジェクトインフォームドシーケンシャルBERTを提案する。
我々のシーケンシャルBERTは、複数のVLNタスクに欠かせない時間的文脈に照らして、視覚的・テキスト的手がかりを解釈することができる。
さらに,各ナビゲーション可能な位置の相対方向(例えば,左/右/フロント/バック)と,現在および最終ナビゲーション目標のルームタイプ(例えば,寝室,キッチン),すなわち"know where"を識別することができる。
3つの室内VLNタスク(REVERIE, NDH, R2R)における最先端手法との比較実験を行った。
関連論文リスト
- Lyrics: Boosting Fine-grained Language-Vision Alignment and
Comprehension via Semantic-aware Visual Objects [36.49703374567597]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。