論文の概要: Visual Question Answering on Multiple Remote Sensing Image Modalities
- arxiv url: http://arxiv.org/abs/2505.15401v1
- Date: Wed, 21 May 2025 11:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.600087
- Title: Visual Question Answering on Multiple Remote Sensing Image Modalities
- Title(参考訳): 複数のリモートセンシング画像モダリティに対する視覚的質問応答
- Authors: Hichem Boussaid, Lucrezia Tosato, Flora Weissgerber, Camille Kurtz, Laurent Wendling, Sylvain Lobry,
- Abstract要約: リモートセンシングのような多くの分野において、視覚的特徴抽出のステップは、異なる画像のモダリティを活用することで大きな恩恵を受けることができる。
TAMMIと呼ばれる新しいVQAデータセットを導入し、3つの異なるモードで記述されたシーンについて多様な質問を行う。
また,視覚言語変換器であるVisualBERTをベースとしたMM-RSVQAモデルを提案し,複数の画像のモダリティとテキストを効果的に組み合わせた。
- 参考スコア(独自算出の注目度): 1.6932802756478726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extraction of visual features is an essential step in Visual Question Answering (VQA). Building a good visual representation of the analyzed scene is indeed one of the essential keys for the system to be able to correctly understand the latter in order to answer complex questions. In many fields such as remote sensing, the visual feature extraction step could benefit significantly from leveraging different image modalities carrying complementary spectral, spatial and contextual information. In this work, we propose to add multiple image modalities to VQA in the particular context of remote sensing, leading to a novel task for the computer vision community. To this end, we introduce a new VQA dataset, named TAMMI (Text and Multi-Modal Imagery) with diverse questions on scenes described by three different modalities (very high resolution RGB, multi-spectral imaging data and synthetic aperture radar). Thanks to an automated pipeline, this dataset can be easily extended according to experimental needs. We also propose the MM-RSVQA (Multi-modal Multi-resolution Remote Sensing Visual Question Answering) model, based on VisualBERT, a vision-language transformer, to effectively combine the multiple image modalities and text through a trainable fusion process. A preliminary experimental study shows promising results of our methodology on this challenging dataset, with an accuracy of 65.56% on the targeted VQA task. This pioneering work paves the way for the community to a new multi-modal multi-resolution VQA task that can be applied in other imaging domains (such as medical imaging) where multi-modality can enrich the visual representation of a scene. The dataset and code are available at https://tammi.sylvainlobry.com/.
- Abstract(参考訳): 視覚的特徴の抽出は、視覚的質問回答(VQA)において重要なステップである。
解析されたシーンの優れた視覚的表現を構築することは、複雑な質問に答えるために、システムが後者を正しく理解するために必要な鍵の1つです。
リモートセンシングなどの多くの分野において、視覚的特徴抽出のステップは、相補的なスペクトル、空間的、文脈的な情報を含む様々な画像モダリティを活用することにより、大きな恩恵を受けることができる。
本稿では,リモートセンシングの特定の文脈において,VQAに複数の画像モダリティを加えることを提案する。
そこで本研究では,3つの異なるモード(高解像度RGB,マルチスペクトル画像データ,合成開口レーダ)で記述されたシーンについて,多様な疑問を呈する新たなVQAデータセットTAMMI(Text and Multi-Modal Imagery)を提案する。
自動パイプラインのおかげで、このデータセットは実験的なニーズに応じて容易に拡張できる。
また,視覚言語変換器である VisualBERT に基づくMM-RSVQA (Multi-modal Multi- resolution Remote Sensing Visual Question Answering) モデルを提案する。
予備実験では、この挑戦的なデータセットにおける我々の方法論の有望な結果を示し、ターゲットVQAタスクの精度は65.56%である。
この先駆的な研究は、マルチモダリティがシーンの視覚的表現を豊かにする他の画像領域(医療画像など)に適用可能な、新しいマルチモーダル・マルチレゾリューションVQAタスクへのコミュニティの道を開く。
データセットとコードはhttps://tammi.sylvainlobry.com/で公開されている。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models [23.044366104080822]
textbfUniRSは視覚言語モデルとして最初のbftextremote bftextsensingタスクである。
UniRSはシングルイメージ、デュアルタイムイメージペア、ビデオを入力としてサポートし、総合的なリモートセンシング時間分析を可能にする。
実験の結果、UniRSは様々なタスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2024-12-30T06:34:18Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - Multi-Modal Fusion Transformer for Visual Question Answering in Remote
Sensing [1.491109220586182]
VQAは、ユーザがRS画像の内容に関する自由形式の質問を定式化し、ジェネリック情報を抽出することを可能にする。
現在の融合アプローチの多くは、合同表現学習の代わりに、その融合加群におけるモダリティ固有の表現を使用する。
この問題を解決するために,マルチモーダルトランスを用いたアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T09:20:33Z) - Multilevel Hierarchical Network with Multiscale Sampling for Video
Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。
MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。
マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。
PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文 参考訳(メタデータ) (2022-05-09T06:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。