論文の概要: Multi-Modal Fusion Transformer for Visual Question Answering in Remote
Sensing
- arxiv url: http://arxiv.org/abs/2210.04510v1
- Date: Mon, 10 Oct 2022 09:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:59:11.168908
- Title: Multi-Modal Fusion Transformer for Visual Question Answering in Remote
Sensing
- Title(参考訳): リモートセンシングにおける視覚的質問応答のためのマルチモーダル核融合トランス
- Authors: Tim Siebert, Kai Norman Clasen, Mahdyar Ravanbakhsh, Beg\"um Demir
- Abstract要約: VQAは、ユーザがRS画像の内容に関する自由形式の質問を定式化し、ジェネリック情報を抽出することを可能にする。
現在の融合アプローチの多くは、合同表現学習の代わりに、その融合加群におけるモダリティ固有の表現を使用する。
この問題を解決するために,マルチモーダルトランスを用いたアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 1.491109220586182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the new generation of satellite technologies, the archives of remote
sensing (RS) images are growing very fast. To make the intrinsic information of
each RS image easily accessible, visual question answering (VQA) has been
introduced in RS. VQA allows a user to formulate a free-form question
concerning the content of RS images to extract generic information. It has been
shown that the fusion of the input modalities (i.e., image and text) is crucial
for the performance of VQA systems. Most of the current fusion approaches use
modality-specific representations in their fusion modules instead of joint
representation learning. However, to discover the underlying relation between
both the image and question modality, the model is required to learn the joint
representation instead of simply combining (e.g., concatenating, adding, or
multiplying) the modality-specific representations. We propose a multi-modal
transformer-based architecture to overcome this issue. Our proposed
architecture consists of three main modules: i) the feature extraction module
for extracting the modality-specific features; ii) the fusion module, which
leverages a user-defined number of multi-modal transformer layers of the
VisualBERT model (VB); and iii) the classification module to obtain the answer.
Experimental results obtained on the RSVQAxBEN and RSVQA-LR datasets (which are
made up of RGB bands of Sentinel-2 images) demonstrate the effectiveness of
VBFusion for VQA tasks in RS. To analyze the importance of using other spectral
bands for the description of the complex content of RS images in the framework
of VQA, we extend the RSVQAxBEN dataset to include all the spectral bands of
Sentinel-2 images with 10m and 20m spatial resolution.
- Abstract(参考訳): 次世代の衛星技術により、リモートセンシング(RS)画像のアーカイブは非常に急速に成長している。
各RS画像の固有情報を容易にアクセスできるようにするために、RSに視覚質問応答(VQA)を導入している。
VQAは、ユーザがRS画像の内容に関する自由形式の質問を定式化し、汎用情報を抽出することを可能にする。
入力モード(画像とテキスト)の融合がVQAシステムの性能に不可欠であることが示されている。
現在の融合アプローチのほとんどは、合同表現学習の代わりに、融合モジュール内のモジュラリティ固有の表現を使用する。
しかし、画像と質問のモダリティの両方の基盤となる関係を発見するためには、モデルが単にモダリティ固有の表現(例えば、連結、加算、乗算)を組み合わせるのではなく、共同表現を学ぶ必要がある。
本稿では,この問題を克服するためのマルチモーダルトランスフォーマティブアーキテクチャを提案する。
提案するアーキテクチャは,3つの主要モジュールから構成される。
一 モダリティに特有な特徴を抽出するための特徴抽出モジュール
二 ユーザ定義のVisualBERTモデル(VB)のマルチモーダルトランスフォーマーレイヤの数を利用した融合モジュール及び
三 答を得るための分類モジュール
RSVQAxBENとRSVQA-LRデータセット(Sentinel-2画像のRGBバンドで構成されている)で得られた実験結果は、RSにおけるVQAタスクに対するVBFusionの有効性を示す。
VQAのフレームワークにおいて、RS画像の複雑な内容を記述するために、他のスペクトル帯域を使用することの重要性を分析するために、RSQQAxBENデータセットを拡張し、10mと20mの空間分解能を持つSentinel-2画像のスペクトル帯域をすべて含むようにした。
関連論文リスト
- Text-Guided Coarse-to-Fine Fusion Network for Robust Remote Sensing Visual Question Answering [26.8129265632403]
現在のリモートセンシング視覚質問応答(RSVQA)法は,光学センサの撮像機構によって制限されている。
RSVQAの性能を向上させるために,テキスト誘導型粗結合ネットワーク(TGFNet)を提案する。
我々は、光学SAR RSVQA法を評価するための最初の大規模ベンチマークデータセットを作成する。
論文 参考訳(メタデータ) (2024-11-24T09:48:03Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Few-Shot Learning Meets Transformer: Unified Query-Support Transformers
for Few-Shot Classification [16.757917001089762]
ほとんどショットの分類は、非常に限られたサンプルを使用して、目に見えないクラスを認識することを目的としていない。
本稿では,この2つの課題を統一的なQuery-Support TransFormerモデルにより同時にモデル化できることを示す。
4つの一般的なデータセットの実験は、提案したQSFormerの有効性と優位性を示している。
論文 参考訳(メタデータ) (2022-08-26T01:53:23Z) - Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote
Sensing Image Retrieval [21.05804942940532]
クロスモーダルなテキスト画像検索は、フレキシブルな入力と効率的なクエリの利点により、広く注目を集めている。
RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため、新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。
本モデルは,マルチスケールな特徴入力に適応し,マルチソース検索手法を好んで,冗長な特徴を動的にフィルタすることができる。
論文 参考訳(メタデータ) (2022-04-21T03:53:19Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。