論文の概要: SAR Strikes Back: A New Hope for RSVQA
- arxiv url: http://arxiv.org/abs/2501.08131v2
- Date: Fri, 08 Aug 2025 15:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:28.978817
- Title: SAR Strikes Back: A New Hope for RSVQA
- Title(参考訳): SARが復活: RSVQAの新たな希望
- Authors: Lucrezia Tosato, Flora Weissgerber, Laurent Wendling, Sylvain Lobry,
- Abstract要約: リモートセンシング視覚質問回答(Remote Sensing Visual Question Answering、RSVQA)は、衛星画像から情報を抽出して自然言語で質問に答えるタスクである。
本稿では,SARに基づくRSVQAを実現するためのデータセットと,そのタスクのための2つのパイプラインを探索する。
- 参考スコア(独自算出の注目度): 1.6249398255272318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Visual Question Answering (RSVQA) is a task that extracts information from satellite images to answer questions in natural language, aiding image interpretation. While several methods exist for optical images with varying spectral bands and resolutions, only recently have high-resolution Synthetic Aperture Radar (SAR) images been explored. SAR's ability to operate in all weather conditions and capture electromagnetic features makes it a promising modality, yet no study has compared SAR and optical imagery in RSVQA or proposed effective fusion strategies. This work investigates how to integrate SAR data into RSVQA and how to best combine it with optical images. We present a dataset that enables SAR-based RSVQA and explore two pipelines for the task. The first is an end-to-end model, while the second is a two-stage framework: SAR information is first extracted and translated into text, which is then processed by a language model to produce the final answer. Our results show that the two-stage model performs better, improving accuracy by nearly 10% over the end-to-end approach. We also evaluate fusion strategies for combining SAR and optical data. A decision-level fusion yields the best results, with an F1-micro score of 75.00%, F1-average of 81.21%, and overall accuracy of 75.49% on the proposed dataset. SAR proves especially beneficial for questions related to specific land cover types, such as water areas, demonstrating its value as a complementary modality to optical imagery.
- Abstract(参考訳): リモートセンシング視覚質問回答(Remote Sensing Visual Question Answering、RSVQA)は、衛星画像から情報を抽出して自然言語で質問に答え、画像解釈を支援するタスクである。
スペクトル帯域と解像度の異なる光学画像にはいくつかの方法が存在するが、最近になってSAR(Synthetic Aperture Radar)画像が探索された。
全ての気象条件下でのSARの動作と電磁特性の捕捉は、有望なモダリティとなっているが、RSVQAにおけるSARと光学画像を比較したり、効果的な融合戦略を提案する研究はない。
本研究では、RSVQAにSARデータを組み込む方法と、それを光画像とうまく組み合わせる方法について検討する。
本稿では,SARに基づくRSVQAを実現するためのデータセットと,そのタスクのための2つのパイプラインを探索する。
1つはエンドツーエンドモデル、もう1つは2段階のフレームワークである: SAR情報は最初に抽出され、テキストに変換され、次に言語モデルによって処理され、最終回答を生成する。
その結果、2段階モデルの性能が向上し、エンド・ツー・エンド・アプローチよりも10%近く精度が向上した。
また,SARと光データを組み合わせた融合戦略の評価を行った。
F1-microスコアは75.00%、F1平均値は81.21%、全体的な精度は75.49%である。
SARは、水面などの特定の土地被覆タイプに関する質問に対して特に有益であり、光学画像の相補的なモダリティとしての価値を示している。
関連論文リスト
- Text-Guided Coarse-to-Fine Fusion Network for Robust Remote Sensing Visual Question Answering [26.8129265632403]
現在のリモートセンシング視覚質問応答(RSVQA)法は,光学センサの撮像機構によって制限されている。
RSVQAの性能を向上させるために,テキスト誘導型粗結合ネットワーク(TGFNet)を提案する。
我々は、光学SAR RSVQA法を評価するための最初の大規模ベンチマークデータセットを作成する。
論文 参考訳(メタデータ) (2024-11-24T09:48:03Z) - A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning [10.748210940033484]
現在の視覚的質問応答(VQA)タスクは、しばしばマルチモーダルデータセットと微調整された視覚言語モデルを構築する必要がある。
本稿では,オブジェクト検出ネットワークと視覚言語モデルを統合する新しいVQA手法を提案する。
この統合は、船舶の位置、密度、サイズ分析といった側面に重点を置いて、VQAシステムの能力を強化することを目的としている。
論文 参考訳(メタデータ) (2024-11-03T06:03:39Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Deep Learning Based Speckle Filtering for Polarimetric SAR Images. Application to Sentinel-1 [51.404644401997736]
本稿では、畳み込みニューラルネットワークを用いて偏光SAR画像のスペックルを除去するための完全なフレームワークを提案する。
実験により,提案手法はスペックル低減と分解能保存の両方において例外的な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-08-28T10:07:17Z) - Can SAR improve RSVQA performance? [1.6249398255272318]
合成開口レーダ(SAR)画像がこの分野で有用かどうかを検討する。
SARのみの分類結果について検討し、SARデータから情報を抽出する最善の方法を検討する。
最後の段階では、光学画像のみを用いた手法と比較して、SAR画像と異なるモードの組み合わせがRSVQAでどのように振る舞うかを検討する。
論文 参考訳(メタデータ) (2024-08-28T08:53:20Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - PeaceGAN: A GAN-based Multi-Task Learning Method for SAR Target Image
Generation with a Pose Estimator and an Auxiliary Classifier [50.17500790309477]
SARターゲット画像生成のための新しいGANベースのマルチタスク学習(MTL)手法であるPeaceGANを提案する。
PeaceGANはポーズ角とターゲットクラス情報の両方を使用し、目的のポーズ角で所望のターゲットクラスのSARターゲット画像を作成することができる。
論文 参考訳(メタデータ) (2021-03-29T10:03:09Z) - The QXS-SAROPT Dataset for Deep Learning in SAR-Optical Data Fusion [14.45289690639374]
QXS-SAROPTデータセットを公開し、SAR-オプティカルデータ融合におけるディープラーニング研究を促進します。
光学画像からのクロスモーダル情報によって強化されたSAR光画像マッチングとSAR船舶検出の2つの代表的な用途の例を示す。
論文 参考訳(メタデータ) (2021-03-15T10:22:46Z) - SAR2SAR: a semi-supervised despeckling algorithm for SAR images [3.9490074068698]
本稿では,自己超越型ディープラーニングアルゴリズムSAR2SARを提案する。
時間的変化の補償と、スペックル統計に適応した損失関数に基づいて、SAR非特異化に適応する戦略を提示する。
提案アルゴリズムの可能性を示すために,実画像における結果について考察する。
論文 参考訳(メタデータ) (2020-06-26T15:07:28Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。