論文の概要: Local Slot Attention for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2206.08645v1
- Date: Fri, 17 Jun 2022 09:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-21 00:37:33.517358
- Title: Local Slot Attention for Vision-and-Language Navigation
- Title(参考訳): 視覚・言語ナビゲーションのための局所スロットアテンション
- Authors: Yifeng Zhuang, Qiang Sun, Yanwei Fu, Lifeng Chen, Xiangyang Sue
- Abstract要約: ビジョン・アンド・ランゲージナビゲーション(VLN)は、コンピュータビジョンと自然言語処理コミュニティにおいてホットな話題である。
同一オブジェクトのセグメンテーションからの情報を取り込むためのスロットアテンションに基づくモジュールを提案する。
R2Rデータセットの実験は、我々のモデルが最先端の結果を達成したことを示している。
- 参考スコア(独自算出の注目度): 30.705802302315785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-language navigation (VLN), a frontier study aiming to pave the way
for general-purpose robots, has been a hot topic in the computer vision and
natural language processing community. The VLN task requires an agent to
navigate to a goal location following natural language instructions in
unfamiliar environments.
Recently, transformer-based models have gained significant improvements on
the VLN task. Since the attention mechanism in the transformer architecture can
better integrate inter- and intra-modal information of vision and language.
However, there exist two problems in current transformer-based models.
1) The models process each view independently without taking the integrity of
the objects into account.
2) During the self-attention operation in the visual modality, the views that
are spatially distant can be inter-weaved with each other without explicit
restriction. This kind of mixing may introduce extra noise instead of useful
information.
To address these issues, we propose 1) A slot-attention based module to
incorporate information from segmentation of the same object. 2) A local
attention mask mechanism to limit the visual attention span. The proposed
modules can be easily plugged into any VLN architecture and we use the
Recurrent VLN-Bert as our base model. Experiments on the R2R dataset show that
our model has achieved the state-of-the-art results.
- Abstract(参考訳): 汎用ロボットへの道を開くためのフロンティア研究であるヴィジョン・アンド・言語ナビゲーション(vln)は、コンピュータビジョンと自然言語処理コミュニティでホットな話題となっている。
VLNタスクは、不慣れな環境で自然言語命令に従って、エージェントが目標地点に向かう必要がある。
近年、トランスフォーマーベースのモデルではVLNタスクが大幅に改善されている。
トランスフォーマーアーキテクチャの注意のメカニズムは、視覚と言語のモード間情報とイントラモーダル情報をより統合することができる。
しかし、現在のトランスモデルには2つの問題がある。
1) モデルは各ビューを独立して処理し、オブジェクトの完全性を考慮していない。
2)視覚モダリティにおける自己照準操作では,空間的に離れた視点を明示的な制約なく相互に織り込むことができる。
この種の混合は有用な情報の代わりに余分なノイズをもたらすかもしれない。
これらの問題に対処するために
1)同一オブジェクトのセグメンテーションからの情報を取り込むスロットアテンションベースのモジュール。
2)視覚的注意範囲を制限する局所的な注意マスク機構。
提案するモジュールは任意のVLNアーキテクチャに簡単にプラグインでき、ベースモデルとしてRecurrent VLN-Bertを使用します。
R2Rデータセットの実験は、我々のモデルが最先端の結果を達成したことを示している。
関連論文リスト
- Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - A Dual Semantic-Aware Recurrent Global-Adaptive Network For
Vision-and-Language Navigation [3.809880620207714]
VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定することを必要とする現実的だが困難なタスクである。
本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。
論文 参考訳(メタデータ) (2023-05-05T15:06:08Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Transferring ConvNet Features from Passive to Active Robot
Self-Localization: The Use of Ego-Centric and World-Centric Views [2.362412515574206]
標準VPRサブシステムは利用可能であると仮定され、ドメイン不変な状態認識能力はドメイン不変なNBVプランナーを訓練するために転送される。
我々は,CNNモデルから利用可能な視覚的手がかりを,出力層キュー(OLC)と中間層キュー(ILC)の2つのタイプに分割する。
本フレームワークでは,ICCとOLCを状態ベクトルにマッピングし,深層強化学習による多視点NBVプランナの訓練に使用する。
論文 参考訳(メタデータ) (2022-04-22T04:42:33Z) - VL-InterpreT: An Interactive Visualization Tool for Interpreting
Vision-Language Transformers [47.581265194864585]
視覚とマルチモーダル変換器の内部機構はほとんど不透明である。
これらの変圧器の成功により、その内部動作を理解することがますます重要になっている。
マルチモーダルトランスにおける注目や隠された表現を解釈するための対話型可視化を提供するVL-InterpreTを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:25:35Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。
我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-11-26T00:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。