論文の概要: SAR Strikes Back: A New Hope for RSVQA
- arxiv url: http://arxiv.org/abs/2501.08131v1
- Date: Tue, 14 Jan 2025 14:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:11.773812
- Title: SAR Strikes Back: A New Hope for RSVQA
- Title(参考訳): SARが復活: RSVQAの新たな希望
- Authors: Lucrezia Tosato, Flora Weissgerber, Laurent Wendling, Sylvain Lobry,
- Abstract要約: RSVQAフレームワークにSAR画像を導入するデータセットを提案する。
SAR画像は、現場から電磁的な情報を捉え、雲のような大気条件の影響を受けない。
本研究では,SARデータに光モダリティを融合させた場合,特に水域などの特定の土地被覆クラスに関する質問に対して,付加的な情報を提供することを示す。
- 参考スコア(独自算出の注目度): 1.6249398255272318
- License:
- Abstract: Remote sensing visual question answering (RSVQA) is a task that automatically extracts information from satellite images and processes a question to predict the answer from the images in textual form, helping with the interpretation of the image. While different methods have been proposed to extract information from optical images with different spectral bands and resolutions, no method has been proposed to answer questions from Synthetic Aperture Radar (SAR) images. SAR images capture electromagnetic information from the scene, and are less affected by atmospheric conditions, such as clouds. In this work, our objective is to introduce SAR in the RSVQA task, finding the best way to use this modality. In our research, we carry out a study on different pipelines for the task of RSVQA taking into account information from both SAR and optical data. To this purpose, we also present a dataset that allows for the introduction of SAR images in the RSVQA framework. We propose two different models to include the SAR modality. The first one is an end-to-end method in which we add an additional encoder for the SAR modality. In the second approach, we build on a two-stage framework. First, relevant information is extracted from SAR and, optionally, optical data. This information is then translated into natural language to be used in the second step which only relies on a language model to provide the answer. We find that the second pipeline allows us to obtain good results with SAR images alone. We then try various types of fusion methods to use SAR and optical images together, finding that a fusion at the decision level achieves the best results on the proposed dataset. We show that SAR data offers additional information when fused with the optical modality, particularly for questions related to specific land cover classes, such as water areas.
- Abstract(参考訳): リモートセンシング視覚質問応答 (RSVQA) は、衛星画像から自動的に情報を抽出し、質問を処理するタスクであり、画像からの回答をテキスト形式で予測し、画像の解釈を支援する。
スペクトル帯域と解像度の異なる光学画像から情報を抽出する方法が提案されているが、合成開口レーダ(SAR)画像からの質問に答える手法は提案されていない。
SAR画像は、現場から電磁的な情報を捉え、雲のような大気条件の影響を受けない。
本研究の目的は,RSVQAタスクにSARを導入し,このモダリティを利用する最善の方法を見つけることである。
本研究では、SARと光データの両方からの情報を考慮したRSVQAタスクのための異なるパイプラインの研究を行う。
この目的のために、RSVQAフレームワークにSAR画像を導入するデータセットも提示する。
SARモダリティを含む2つの異なるモデルを提案する。
1つ目は、SARのモダリティに追加のエンコーダを追加するエンドツーエンドの手法である。
2つ目のアプローチでは、2段階のフレームワークを構築します。
まず、SARから関連情報を抽出し、オプションで光学データを得る。
この情報は自然言語に変換され、2番目のステップで使用される。
第2のパイプラインは、SAR画像だけで良い結果を得ることができることが分かりました。
次に、SARと光学画像の融合手法を併用して、決定レベルでの融合が、提案したデータセット上で最良の結果が得られることを確かめる。
本研究では,SARデータに光モダリティを融合させた場合,特に水域などの特定の土地被覆クラスに関する質問に対して,付加的な情報を提供することを示す。
関連論文リスト
- Text-Guided Coarse-to-Fine Fusion Network for Robust Remote Sensing Visual Question Answering [26.8129265632403]
現在のリモートセンシング視覚質問応答(RSVQA)法は,光学センサの撮像機構によって制限されている。
RSVQAの性能を向上させるために,テキスト誘導型粗結合ネットワーク(TGFNet)を提案する。
我々は、光学SAR RSVQA法を評価するための最初の大規模ベンチマークデータセットを作成する。
論文 参考訳(メタデータ) (2024-11-24T09:48:03Z) - A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning [10.748210940033484]
現在の視覚的質問応答(VQA)タスクは、しばしばマルチモーダルデータセットと微調整された視覚言語モデルを構築する必要がある。
本稿では,オブジェクト検出ネットワークと視覚言語モデルを統合する新しいVQA手法を提案する。
この統合は、船舶の位置、密度、サイズ分析といった側面に重点を置いて、VQAシステムの能力を強化することを目的としている。
論文 参考訳(メタデータ) (2024-11-03T06:03:39Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Deep Learning Based Speckle Filtering for Polarimetric SAR Images. Application to Sentinel-1 [51.404644401997736]
本稿では、畳み込みニューラルネットワークを用いて偏光SAR画像のスペックルを除去するための完全なフレームワークを提案する。
実験により,提案手法はスペックル低減と分解能保存の両方において例外的な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-08-28T10:07:17Z) - Can SAR improve RSVQA performance? [1.6249398255272318]
合成開口レーダ(SAR)画像がこの分野で有用かどうかを検討する。
SARのみの分類結果について検討し、SARデータから情報を抽出する最善の方法を検討する。
最後の段階では、光学画像のみを用いた手法と比較して、SAR画像と異なるモードの組み合わせがRSVQAでどのように振る舞うかを検討する。
論文 参考訳(メタデータ) (2024-08-28T08:53:20Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - PeaceGAN: A GAN-based Multi-Task Learning Method for SAR Target Image
Generation with a Pose Estimator and an Auxiliary Classifier [50.17500790309477]
SARターゲット画像生成のための新しいGANベースのマルチタスク学習(MTL)手法であるPeaceGANを提案する。
PeaceGANはポーズ角とターゲットクラス情報の両方を使用し、目的のポーズ角で所望のターゲットクラスのSARターゲット画像を作成することができる。
論文 参考訳(メタデータ) (2021-03-29T10:03:09Z) - The QXS-SAROPT Dataset for Deep Learning in SAR-Optical Data Fusion [14.45289690639374]
QXS-SAROPTデータセットを公開し、SAR-オプティカルデータ融合におけるディープラーニング研究を促進します。
光学画像からのクロスモーダル情報によって強化されたSAR光画像マッチングとSAR船舶検出の2つの代表的な用途の例を示す。
論文 参考訳(メタデータ) (2021-03-15T10:22:46Z) - SAR2SAR: a semi-supervised despeckling algorithm for SAR images [3.9490074068698]
本稿では,自己超越型ディープラーニングアルゴリズムSAR2SARを提案する。
時間的変化の補償と、スペックル統計に適応した損失関数に基づいて、SAR非特異化に適応する戦略を提示する。
提案アルゴリズムの可能性を示すために,実画像における結果について考察する。
論文 参考訳(メタデータ) (2020-06-26T15:07:28Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。