論文の概要: SAR Strikes Back: A New Hope for RSVQA
- arxiv url: http://arxiv.org/abs/2501.08131v2
- Date: Fri, 08 Aug 2025 15:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:28.978817
- Title: SAR Strikes Back: A New Hope for RSVQA
- Title(参考訳): SARが復活: RSVQAの新たな希望
- Authors: Lucrezia Tosato, Flora Weissgerber, Laurent Wendling, Sylvain Lobry,
- Abstract要約: リモートセンシング視覚質問回答(Remote Sensing Visual Question Answering、RSVQA)は、衛星画像から情報を抽出して自然言語で質問に答えるタスクである。
本稿では,SARに基づくRSVQAを実現するためのデータセットと,そのタスクのための2つのパイプラインを探索する。
- 参考スコア(独自算出の注目度): 1.6249398255272318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote Sensing Visual Question Answering (RSVQA) is a task that extracts information from satellite images to answer questions in natural language, aiding image interpretation. While several methods exist for optical images with varying spectral bands and resolutions, only recently have high-resolution Synthetic Aperture Radar (SAR) images been explored. SAR's ability to operate in all weather conditions and capture electromagnetic features makes it a promising modality, yet no study has compared SAR and optical imagery in RSVQA or proposed effective fusion strategies. This work investigates how to integrate SAR data into RSVQA and how to best combine it with optical images. We present a dataset that enables SAR-based RSVQA and explore two pipelines for the task. The first is an end-to-end model, while the second is a two-stage framework: SAR information is first extracted and translated into text, which is then processed by a language model to produce the final answer. Our results show that the two-stage model performs better, improving accuracy by nearly 10% over the end-to-end approach. We also evaluate fusion strategies for combining SAR and optical data. A decision-level fusion yields the best results, with an F1-micro score of 75.00%, F1-average of 81.21%, and overall accuracy of 75.49% on the proposed dataset. SAR proves especially beneficial for questions related to specific land cover types, such as water areas, demonstrating its value as a complementary modality to optical imagery.
- Abstract(参考訳): リモートセンシング視覚質問回答(Remote Sensing Visual Question Answering、RSVQA)は、衛星画像から情報を抽出して自然言語で質問に答え、画像解釈を支援するタスクである。
スペクトル帯域と解像度の異なる光学画像にはいくつかの方法が存在するが、最近になってSAR(Synthetic Aperture Radar)画像が探索された。
全ての気象条件下でのSARの動作と電磁特性の捕捉は、有望なモダリティとなっているが、RSVQAにおけるSARと光学画像を比較したり、効果的な融合戦略を提案する研究はない。
本研究では、RSVQAにSARデータを組み込む方法と、それを光画像とうまく組み合わせる方法について検討する。
本稿では,SARに基づくRSVQAを実現するためのデータセットと,そのタスクのための2つのパイプラインを探索する。
1つはエンドツーエンドモデル、もう1つは2段階のフレームワークである: SAR情報は最初に抽出され、テキストに変換され、次に言語モデルによって処理され、最終回答を生成する。
その結果、2段階モデルの性能が向上し、エンド・ツー・エンド・アプローチよりも10%近く精度が向上した。
また,SARと光データを組み合わせた融合戦略の評価を行った。
F1-microスコアは75.00%、F1平均値は81.21%、全体的な精度は75.49%である。
SARは、水面などの特定の土地被覆タイプに関する質問に対して特に有益であり、光学画像の相補的なモダリティとしての価値を示している。
関連論文リスト
- SARCLIP: A Vision Language Foundation Model for Semantic Understanding and Target Recognition in SAR Imagery [46.87845911116779]
SARCLIPは、SARドメインに適した最初のビジョン言語基盤モデルである。
SARCLIPは、ドメイン転送戦略によって対照的な視覚言語学習アプローチを用いて訓練される。
画像テキスト検索とゼロショット分類タスクの実験は、SARCLIPの優れた性能を示す。
論文 参考訳(メタデータ) (2025-10-26T13:04:50Z) - SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding [20.314150537672198]
VLM(Vision-Language Models)は、強力なオープン語彙解釈と柔軟な言語相互作用を提供するRGBイメージ理解において、顕著な成功を収めている。
マルチモーダルなSAR画像理解に適した大規模ベンチマークであるSARLANG-1Mを紹介する。
階層的な解像度(0.1mから25m)、きめ細かいセマンティック記述(簡潔さと詳細なキャプションを含む)、多様なリモートセンシングカテゴリ、そして7つのアプリケーションと1,012の質問タイプにまたがるマルチタスクの質問応答ペアが特徴である。
論文 参考訳(メタデータ) (2025-04-04T08:09:53Z) - Text-Guided Coarse-to-Fine Fusion Network for Robust Remote Sensing Visual Question Answering [26.8129265632403]
現在のリモートセンシング視覚質問応答(RSVQA)法は,光学センサの撮像機構によって制限されている。
RSVQAの性能を向上させるために,テキスト誘導型粗結合ネットワーク(TGFNet)を提案する。
我々は、光学SAR RSVQA法を評価するための最初の大規模ベンチマークデータセットを作成する。
論文 参考訳(メタデータ) (2024-11-24T09:48:03Z) - A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning [10.748210940033484]
現在の視覚的質問応答(VQA)タスクは、しばしばマルチモーダルデータセットと微調整された視覚言語モデルを構築する必要がある。
本稿では,オブジェクト検出ネットワークと視覚言語モデルを統合する新しいVQA手法を提案する。
この統合は、船舶の位置、密度、サイズ分析といった側面に重点を置いて、VQAシステムの能力を強化することを目的としている。
論文 参考訳(メタデータ) (2024-11-03T06:03:39Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Deep Learning Based Speckle Filtering for Polarimetric SAR Images. Application to Sentinel-1 [51.404644401997736]
本稿では、畳み込みニューラルネットワークを用いて偏光SAR画像のスペックルを除去するための完全なフレームワークを提案する。
実験により,提案手法はスペックル低減と分解能保存の両方において例外的な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-08-28T10:07:17Z) - Can SAR improve RSVQA performance? [1.6249398255272318]
合成開口レーダ(SAR)画像がこの分野で有用かどうかを検討する。
SARのみの分類結果について検討し、SARデータから情報を抽出する最善の方法を検討する。
最後の段階では、光学画像のみを用いた手法と比較して、SAR画像と異なるモードの組み合わせがRSVQAでどのように振る舞うかを検討する。
論文 参考訳(メタデータ) (2024-08-28T08:53:20Z) - Conditional Brownian Bridge Diffusion Model for VHR SAR to Optical Image Translation [5.578820789388206]
本文は,Brownian Bridge Diffusion Model(BBDM)に基づく条件付き画像から画像への変換手法を提案する。
我々は、MSAWデータセット、ペアSAR、0.5m Very-High-Resolution (VHR) の光学画像収集に関する総合的な実験を行った。
論文 参考訳(メタデータ) (2024-08-15T05:43:46Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - SDF2Net: Shallow to Deep Feature Fusion Network for PolSAR Image
Classification [1.2349871196144497]
畳み込みニューラルネットワーク(CNN)は, PolSAR画像の特徴を捉える上で重要な役割を担っている。
本研究では,PolSAR画像分類において,Shallow to Deep Feature Fusion Network (SDF2Net) と呼ばれる複素数値CNNの3分岐融合を提案する。
その結果、提案手法は全体的な精度の向上を示し、AIRSARデータセットは1.3%、0.8%、ESARデータセットは0.5%向上した。
論文 参考訳(メタデータ) (2024-02-27T16:46:21Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Confusing Image Quality Assessment: Towards Better Augmented Reality
Experience [96.29124666702566]
我々はAR技術を仮想シーンと実シーンの重ね合わせとみなし、視覚的混乱を基本的な理論として紹介する。
ConFusing Image Quality Assessment (CFIQA)データベースが構築され、600個の参照画像と300個の歪画像とをペアに混合して生成する。
また、難解な画像品質をよりよく評価するために、CFIQAと呼ばれる客観的な計量も提案されている。
論文 参考訳(メタデータ) (2022-04-11T07:03:06Z) - Rethinking Drone-Based Search and Rescue with Aerial Person Detection [79.76669658740902]
航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。
本稿では,この空中人物検出(APD)タスクを自動化するための新しいディープラーニングアルゴリズムを提案する。
本稿では,Aerial Inspection RetinaNet (AIR) アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-11-17T21:48:31Z) - PeaceGAN: A GAN-based Multi-Task Learning Method for SAR Target Image
Generation with a Pose Estimator and an Auxiliary Classifier [50.17500790309477]
SARターゲット画像生成のための新しいGANベースのマルチタスク学習(MTL)手法であるPeaceGANを提案する。
PeaceGANはポーズ角とターゲットクラス情報の両方を使用し、目的のポーズ角で所望のターゲットクラスのSARターゲット画像を作成することができる。
論文 参考訳(メタデータ) (2021-03-29T10:03:09Z) - The QXS-SAROPT Dataset for Deep Learning in SAR-Optical Data Fusion [14.45289690639374]
QXS-SAROPTデータセットを公開し、SAR-オプティカルデータ融合におけるディープラーニング研究を促進します。
光学画像からのクロスモーダル情報によって強化されたSAR光画像マッチングとSAR船舶検出の2つの代表的な用途の例を示す。
論文 参考訳(メタデータ) (2021-03-15T10:22:46Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - SAR2SAR: a semi-supervised despeckling algorithm for SAR images [3.9490074068698]
本稿では,自己超越型ディープラーニングアルゴリズムSAR2SARを提案する。
時間的変化の補償と、スペックル統計に適応した損失関数に基づいて、SAR非特異化に適応する戦略を提示する。
提案アルゴリズムの可能性を示すために,実画像における結果について考察する。
論文 参考訳(メタデータ) (2020-06-26T15:07:28Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。