論文の概要: Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection
- arxiv url: http://arxiv.org/abs/2410.23828v2
- Date: Wed, 13 Nov 2024 09:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:08:46.295542
- Title: Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection
- Title(参考訳): 何とどこで変化があったか見せてみろ : リモートセンシングによる変化検出のための質問応答と接地
- Authors: Ke Li, Fuyu Dong, Di Wang, Shaofeng Li, Quan Wang, Xinbo Gao, Tat-Seng Chua,
- Abstract要約: 我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
- 参考スコア(独自算出の注目度): 82.65760006883248
- License:
- Abstract: Remote sensing change detection aims to perceive changes occurring on the Earth's surface from remote sensing data in different periods, and feed these changes back to humans. However, most existing methods only focus on detecting change regions, lacking the capability to interact with users to identify changes that the users expect. In this paper, we introduce a new task named Change Detection Question Answering and Grounding (CDQAG), which extends the traditional change detection task by providing interpretable textual answers and intuitive visual evidence. To this end, we construct the first CDQAG benchmark dataset, termed QAG-360K, comprising over 360K triplets of questions, textual answers, and corresponding high-quality visual masks. It encompasses 10 essential land-cover categories and 8 comprehensive question types, which provides a valuable and diverse dataset for remote sensing applications. Furthermore, we present VisTA, a simple yet effective baseline method that unifies the tasks of question answering and grounding by delivering both visual and textual answers. Our method achieves state-of-the-art results on both the classic change detection-based visual question answering (CDVQA) and the proposed CDQAG datasets. Extensive qualitative and quantitative experimental results provide useful insights for developing better CDQAG models, and we hope that our work can inspire further research in this important yet underexplored research field. The proposed benchmark dataset and method are available at https://github.com/like413/VisTA.
- Abstract(参考訳): リモートセンシング変化検出は、異なる期間のリモートセンシングデータから地球表面で起きている変化を知覚し、これらの変化を人間にフィードバックすることを目的としている。
しかし、既存の手法のほとんどは変更領域の検出のみに焦点を当てており、ユーザが期待する変更を特定するためにユーザと対話する能力が欠如している。
本稿では,従来の変化検出タスクを拡張したCDQAG(Change Detection Question Answering and Grounding)という新しいタスクを提案する。
そこで我々は,最初のCDQAGベンチマークデータセットであるQAG-360Kを構築した。
10の不可欠な土地被覆カテゴリと8つの総合的な質問タイプを含み、リモートセンシングアプリケーションに価値があり多様なデータセットを提供する。
さらに,視覚的およびテキスト的両方の回答を提供することで,質問応答とグラウンド化のタスクを統一する,シンプルで効果的なベースライン手法であるVisTAを提案する。
本手法は,古典的変化検出に基づく視覚的質問応答(CDVQA)と提案したCDQAGデータセットの両者について,最先端の結果を得る。
定性的かつ定量的な実験結果により,CDQAGモデルの改良に有用な知見が得られた。
提案されているベンチマークデータセットとメソッドはhttps://github.com/like413/VisTAで公開されている。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection [16.62779899494721]
変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。
本稿では,バイテンポラルRS画像における意味変化をエンコードする,効果的なSiameseベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T17:47:14Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Change Detection Methods for Remote Sensing in the Last Decade: A
Comprehensive Review [45.78958623050146]
変更検出はリモートセンシングにおいて必須かつ広く利用されるタスクである。
時間とともに同じ地理的領域で起きている変化を検出し、分析することを目的としている。
ディープラーニングは、これらの課題を抽出し対処するための強力なツールとして登場した。
論文 参考訳(メタデータ) (2023-05-09T23:52:37Z) - Transformation-Invariant Network for Few-Shot Object Detection in Remote
Sensing Images [15.251042369061024]
FSOD(Few-shot Object Detection)は、トレーニングのために大量のラベル付きデータを頼りにしている。
リモートセンシング画像におけるオブジェクトのスケールと向きのバリエーションは、既存のFSOD法に重大な課題をもたらす。
特徴ピラミッドネットワークの統合と,クエリ機能向上のためのプロトタイプ機能の利用を提案する。
論文 参考訳(メタデータ) (2023-03-13T02:21:38Z) - Weakly Supervised Grounding for VQA in Vision-Language Transformers [112.5344267669495]
本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。
このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-05T22:06:03Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - DASNet: Dual attentive fully convolutional siamese networks for change
detection of high resolution satellite images [17.839181739760676]
研究の目的は、関心の変化情報を識別し、無関係な変更情報を干渉要因としてフィルタリングすることである。
近年、ディープラーニングの台頭により、変化検出のための新しいツールが提供され、目覚ましい結果が得られた。
我々は,高解像度画像における変化検出のための新しい手法,すなわち,二重注意型完全畳み込みシームズネットワーク(DASNet)を提案する。
論文 参考訳(メタデータ) (2020-03-07T16:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。