論文の概要: SAR Strikes Back: A New Hope for RSVQA
- arxiv url: http://arxiv.org/abs/2501.08131v1
- Date: Tue, 14 Jan 2025 14:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 17:02:04.496212
- Title: SAR Strikes Back: A New Hope for RSVQA
- Title(参考訳): SARが復活: RSVQAの新たな希望
- Authors: Lucrezia Tosato, Flora Weissgerber, Laurent Wendling, Sylvain Lobry,
- Abstract要約: RSVQAフレームワークにSAR画像を導入するデータセットを提案する。
SAR画像は、現場から電磁的な情報を捉え、雲のような大気条件の影響を受けない。
本研究では,SARデータに光モダリティを融合させた場合,特に水域などの特定の土地被覆クラスに関する質問に対して,付加的な情報を提供することを示す。
- 参考スコア(独自算出の注目度): 1.6249398255272318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing visual question answering (RSVQA) is a task that automatically extracts information from satellite images and processes a question to predict the answer from the images in textual form, helping with the interpretation of the image. While different methods have been proposed to extract information from optical images with different spectral bands and resolutions, no method has been proposed to answer questions from Synthetic Aperture Radar (SAR) images. SAR images capture electromagnetic information from the scene, and are less affected by atmospheric conditions, such as clouds. In this work, our objective is to introduce SAR in the RSVQA task, finding the best way to use this modality. In our research, we carry out a study on different pipelines for the task of RSVQA taking into account information from both SAR and optical data. To this purpose, we also present a dataset that allows for the introduction of SAR images in the RSVQA framework. We propose two different models to include the SAR modality. The first one is an end-to-end method in which we add an additional encoder for the SAR modality. In the second approach, we build on a two-stage framework. First, relevant information is extracted from SAR and, optionally, optical data. This information is then translated into natural language to be used in the second step which only relies on a language model to provide the answer. We find that the second pipeline allows us to obtain good results with SAR images alone. We then try various types of fusion methods to use SAR and optical images together, finding that a fusion at the decision level achieves the best results on the proposed dataset. We show that SAR data offers additional information when fused with the optical modality, particularly for questions related to specific land cover classes, such as water areas.
- Abstract(参考訳): リモートセンシング視覚質問応答 (RSVQA) は、衛星画像から自動的に情報を抽出し、質問を処理するタスクであり、画像からの回答をテキスト形式で予測し、画像の解釈を支援する。
スペクトル帯域と解像度の異なる光学画像から情報を抽出する方法が提案されているが、合成開口レーダ(SAR)画像からの質問に答える手法は提案されていない。
SAR画像は、現場から電磁的な情報を捉え、雲のような大気条件の影響を受けない。
本研究の目的は,RSVQAタスクにSARを導入し,このモダリティを利用する最善の方法を見つけることである。
本研究では、SARと光データの両方からの情報を考慮したRSVQAタスクのための異なるパイプラインの研究を行う。
この目的のために、RSVQAフレームワークにSAR画像を導入するデータセットも提示する。
SARモダリティを含む2つの異なるモデルを提案する。
1つ目は、SARのモダリティに追加のエンコーダを追加するエンドツーエンドの手法である。
2つ目のアプローチでは、2段階のフレームワークを構築します。
まず、SARから関連情報を抽出し、オプションで光学データを得る。
この情報は自然言語に変換され、2番目のステップで使用される。
第2のパイプラインは、SAR画像だけで良い結果を得ることができることが分かりました。
次に、SARと光学画像の融合手法を併用して、決定レベルでの融合が、提案したデータセット上で最良の結果が得られることを確かめる。
本研究では,SARデータに光モダリティを融合させた場合,特に水域などの特定の土地被覆クラスに関する質問に対して,付加的な情報を提供することを示す。
関連論文リスト
- SARCLIP: A Vision Language Foundation Model for Semantic Understanding and Target Recognition in SAR Imagery [46.87845911116779]
SARCLIPは、SARドメインに適した最初のビジョン言語基盤モデルである。
SARCLIPは、ドメイン転送戦略によって対照的な視覚言語学習アプローチを用いて訓練される。
画像テキスト検索とゼロショット分類タスクの実験は、SARCLIPの優れた性能を示す。
論文 参考訳(メタデータ) (2025-10-26T13:04:50Z) - SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding [20.314150537672198]
VLM(Vision-Language Models)は、強力なオープン語彙解釈と柔軟な言語相互作用を提供するRGBイメージ理解において、顕著な成功を収めている。
マルチモーダルなSAR画像理解に適した大規模ベンチマークであるSARLANG-1Mを紹介する。
階層的な解像度(0.1mから25m)、きめ細かいセマンティック記述(簡潔さと詳細なキャプションを含む)、多様なリモートセンシングカテゴリ、そして7つのアプリケーションと1,012の質問タイプにまたがるマルチタスクの質問応答ペアが特徴である。
論文 参考訳(メタデータ) (2025-04-04T08:09:53Z) - Text-Guided Coarse-to-Fine Fusion Network for Robust Remote Sensing Visual Question Answering [26.8129265632403]
現在のリモートセンシング視覚質問応答(RSVQA)法は,光学センサの撮像機構によって制限されている。
RSVQAの性能を向上させるために,テキスト誘導型粗結合ネットワーク(TGFNet)を提案する。
我々は、光学SAR RSVQA法を評価するための最初の大規模ベンチマークデータセットを作成する。
論文 参考訳(メタデータ) (2024-11-24T09:48:03Z) - A Visual Question Answering Method for SAR Ship: Breaking the Requirement for Multimodal Dataset Construction and Model Fine-Tuning [10.748210940033484]
現在の視覚的質問応答(VQA)タスクは、しばしばマルチモーダルデータセットと微調整された視覚言語モデルを構築する必要がある。
本稿では,オブジェクト検出ネットワークと視覚言語モデルを統合する新しいVQA手法を提案する。
この統合は、船舶の位置、密度、サイズ分析といった側面に重点を置いて、VQAシステムの能力を強化することを目的としている。
論文 参考訳(メタデータ) (2024-11-03T06:03:39Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Deep Learning Based Speckle Filtering for Polarimetric SAR Images. Application to Sentinel-1 [51.404644401997736]
本稿では、畳み込みニューラルネットワークを用いて偏光SAR画像のスペックルを除去するための完全なフレームワークを提案する。
実験により,提案手法はスペックル低減と分解能保存の両方において例外的な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-08-28T10:07:17Z) - Can SAR improve RSVQA performance? [1.6249398255272318]
合成開口レーダ(SAR)画像がこの分野で有用かどうかを検討する。
SARのみの分類結果について検討し、SARデータから情報を抽出する最善の方法を検討する。
最後の段階では、光学画像のみを用いた手法と比較して、SAR画像と異なるモードの組み合わせがRSVQAでどのように振る舞うかを検討する。
論文 参考訳(メタデータ) (2024-08-28T08:53:20Z) - Conditional Brownian Bridge Diffusion Model for VHR SAR to Optical Image Translation [5.578820789388206]
本文は,Brownian Bridge Diffusion Model(BBDM)に基づく条件付き画像から画像への変換手法を提案する。
我々は、MSAWデータセット、ペアSAR、0.5m Very-High-Resolution (VHR) の光学画像収集に関する総合的な実験を行った。
論文 参考訳(メタデータ) (2024-08-15T05:43:46Z) - SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale SAR Object Detection [79.23689506129733]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - SDF2Net: Shallow to Deep Feature Fusion Network for PolSAR Image
Classification [1.2349871196144497]
畳み込みニューラルネットワーク(CNN)は, PolSAR画像の特徴を捉える上で重要な役割を担っている。
本研究では,PolSAR画像分類において,Shallow to Deep Feature Fusion Network (SDF2Net) と呼ばれる複素数値CNNの3分岐融合を提案する。
その結果、提案手法は全体的な精度の向上を示し、AIRSARデータセットは1.3%、0.8%、ESARデータセットは0.5%向上した。
論文 参考訳(メタデータ) (2024-02-27T16:46:21Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Confusing Image Quality Assessment: Towards Better Augmented Reality
Experience [96.29124666702566]
我々はAR技術を仮想シーンと実シーンの重ね合わせとみなし、視覚的混乱を基本的な理論として紹介する。
ConFusing Image Quality Assessment (CFIQA)データベースが構築され、600個の参照画像と300個の歪画像とをペアに混合して生成する。
また、難解な画像品質をよりよく評価するために、CFIQAと呼ばれる客観的な計量も提案されている。
論文 参考訳(メタデータ) (2022-04-11T07:03:06Z) - Rethinking Drone-Based Search and Rescue with Aerial Person Detection [79.76669658740902]
航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。
本稿では,この空中人物検出(APD)タスクを自動化するための新しいディープラーニングアルゴリズムを提案する。
本稿では,Aerial Inspection RetinaNet (AIR) アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-11-17T21:48:31Z) - PeaceGAN: A GAN-based Multi-Task Learning Method for SAR Target Image
Generation with a Pose Estimator and an Auxiliary Classifier [50.17500790309477]
SARターゲット画像生成のための新しいGANベースのマルチタスク学習(MTL)手法であるPeaceGANを提案する。
PeaceGANはポーズ角とターゲットクラス情報の両方を使用し、目的のポーズ角で所望のターゲットクラスのSARターゲット画像を作成することができる。
論文 参考訳(メタデータ) (2021-03-29T10:03:09Z) - The QXS-SAROPT Dataset for Deep Learning in SAR-Optical Data Fusion [14.45289690639374]
QXS-SAROPTデータセットを公開し、SAR-オプティカルデータ融合におけるディープラーニング研究を促進します。
光学画像からのクロスモーダル情報によって強化されたSAR光画像マッチングとSAR船舶検出の2つの代表的な用途の例を示す。
論文 参考訳(メタデータ) (2021-03-15T10:22:46Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - SAR2SAR: a semi-supervised despeckling algorithm for SAR images [3.9490074068698]
本稿では,自己超越型ディープラーニングアルゴリズムSAR2SARを提案する。
時間的変化の補償と、スペックル統計に適応した損失関数に基づいて、SAR非特異化に適応する戦略を提示する。
提案アルゴリズムの可能性を示すために,実画像における結果について考察する。
論文 参考訳(メタデータ) (2020-06-26T15:07:28Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。