Fugu-MT 論文翻訳(概要): GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation

論文の概要: GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2305.17102v2
Date: Mon, 2 Oct 2023 16:23:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-03 14:21:12.709105
Title: GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation
Title（参考訳）: GeoVLN:視覚・言語ナビゲーションのためのスロット注意による幾何学的視覚表現の学習
Authors: Jingyang Huo, Qiang Sun, Boyan Jiang, Haitao Lin, Yanwei Fu
Abstract要約: 我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
参考スコア（独自算出の注目度）: 52.65506307440127
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most existing works solving Room-to-Room VLN problem only utilize RGB images and do not consider local context around candidate views, which lack sufficient visual cues about surrounding environment. Moreover, natural language contains complex semantic information thus its correlations with visual inputs are hard to model merely with cross attention. In this paper, we propose GeoVLN, which learns Geometry-enhanced visual representation based on slot attention for robust Visual-and-Language Navigation. The RGB images are compensated with the corresponding depth maps and normal maps predicted by Omnidata as visual inputs. Technically, we introduce a two-stage module that combine local slot attention and CLIP model to produce geometry-enhanced representation from such input. We employ V&L BERT to learn a cross-modal representation that incorporate both language and vision informations. Additionally, a novel multiway attention module is designed, encouraging different phrases of input instruction to exploit the most related features from visual input. Extensive experiments demonstrate the effectiveness of our newly designed modules and show the compelling performance of the proposed method.
Abstract（参考訳）: Room-to-Room VLN問題はRGB画像のみを用いており、周囲の環境に関する十分な視覚的手がかりが不足している候補ビューに関するローカルコンテキストを考慮していない。さらに、自然言語には複雑な意味情報が含まれており、視覚入力との相関は、単に横断的な注意だけではモデル化が困難である。本稿では,ロバストな視覚言語ナビゲーションのためのスロットアテンションに基づいて,幾何エンハンスド視覚表現を学習するgeovlnを提案する。 rgb画像は対応する深度マップとomnidataが予測した正常マップを視覚入力として補償する。技術的には,局所スロットアテンションとクリップモデルを組み合わせた2段階モジュールを導入し,入力から幾何エンハンスド表現を生成する。我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。さらに、視覚入力から最も関連性の高い特徴を活用するために、入力命令の異なるフレーズを奨励する新しいマルチウェイアテンションモジュールが設計されている。大規模実験により,新たに設計したモジュールの有効性を実証し,提案手法の有効性を示す。

関連論文リスト

Visual Adaptive Prompting for Compositional Zero-Shot Learning [0.0]
VLM(Vision-Language Models)は、視覚およびテキストデータの共同表現を学習する際、印象的な能力を示す。 CZSLは、トレーニング中に明示的に遭遇しなかった属性やオブジェクトのような新しい視覚的プリミティブの組み合わせに一般化するモデルを必要とする。意味的特徴と視覚的特徴のギャップを埋める視覚適応型プロンプトシステム(VAPS)を提案する。
論文参考訳（メタデータ） (2025-02-27T17:17:43Z)
EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension [12.9701635989222]
EarthMarkerと呼ばれる最初の視覚的プロンプトモデルが提案され、画像レベル、領域レベル、ポイントレベルRSの解釈に優れる。多様な多粒度視覚知覚能力を持つEarthMarkerを実現するために、クロスドメイン位相学習戦略を開発した。 RSの視覚的プロンプトデータの欠如に対処するため、マルチモーダルな視覚的プロンプト命令を備えたRSVPというデータセットを構築した。
論文参考訳（メタデータ） (2024-07-18T15:35:00Z)
ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization [0.0]
そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証する。
論文参考訳（メタデータ） (2024-06-04T02:28:51Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts [38.59120110371588]
任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを提案する。これにより、ユーザは直感的にイメージをマークし、"赤いバウンディングボックス"や"ポイントアロー"のような自然なキューを使ってモデルと対話できる。我々の単純な設計では、ビジュアルマーカーをRGBイメージに直接オーバーレイし、複雑な領域エンコーディングを不要にしています。
論文参考訳（メタデータ） (2023-12-01T18:59:56Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文参考訳（メタデータ） (2022-03-10T03:30:12Z)
Know What and Know Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation [120.90387630691816]
VLN(Vision-and-Language Navigation)は、自然言語命令と写真リアリスティックパノラマのセットに基づいて、エージェントが遠隔地へ移動する必要がある。既存の手法の多くは、各パノラマの命令と離散ビューで単語をエンコーディングの最小単位とする。視覚知覚と言語指示を同一のきめ細かいレベルで符号化するオブジェクトインフォームド・シーケンシャルBERTを提案する。
論文参考訳（メタデータ） (2021-04-09T02:44:39Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。