論文の概要: Copy-Move Forgery Detection and Question Answering for Remote Sensing Image
- arxiv url: http://arxiv.org/abs/2412.02575v1
- Date: Tue, 03 Dec 2024 17:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:17.285160
- Title: Copy-Move Forgery Detection and Question Answering for Remote Sensing Image
- Title(参考訳): リモートセンシング画像におけるコピーモーブ偽造検出と質問応答
- Authors: Ze Zhang, Enyuan Zhao, Ziyi Wan, Jie Nie, Xinyue Liang, Lei Huang,
- Abstract要約: 本稿では,RSCMQA(Remote Sensing Copy-Move Question Answering)の課題を紹介する。
従来のRemote Sensing Visual Question Answering (RSVQA)とは異なり、RCCMQAは複雑なタンパリングシナリオの解釈に重点を置いている。
我々は、RS-CMQA-2.1Mというリモートセンシング画像複写質問応答のための高精度で包括的なグローバルデータセットを開発した。
- 参考スコア(独自算出の注目度): 14.436863648867904
- License:
- Abstract: This paper introduces the task of Remote Sensing Copy-Move Question Answering (RSCMQA). Unlike traditional Remote Sensing Visual Question Answering (RSVQA), RSCMQA focuses on interpreting complex tampering scenarios and inferring relationships between objects. Based on the practical needs of national defense security and land resource monitoring, we have developed an accurate and comprehensive global dataset for remote sensing image copy-move question answering, named RS-CMQA-2.1M. These images were collected from 29 different regions across 14 countries. Additionally, we have refined a balanced dataset, RS-CMQA-B, to address the long-standing issue of long-tail data in the remote sensing field. Furthermore, we propose a region-discriminative guided multimodal CMQA model, which enhances the accuracy of answering questions about tampered images by leveraging prompt about the differences and connections between the source and tampered domains. Extensive experiments demonstrate that our method provides a stronger benchmark for RS-CMQA compared to general VQA and RSVQA models. Our dataset and code are available at https://github.com/shenyedepisa/RSCMQA.
- Abstract(参考訳): 本稿では,RSCMQA(Remote Sensing Copy-Move Question Answering)の課題を紹介する。
従来のRemote Sensing Visual Question Answering (RSVQA)とは異なり、RSCMQAは複雑なタンパリングシナリオの解釈とオブジェクト間の関係の推論に重点を置いている。
国土安全保障と土地資源モニタリングの実践的ニーズに基づき,我々は,RS-CMQA-2.1Mというリモートセンシング画像複写質問応答のための,高精度で包括的なグローバルデータセットを開発した。
これらの画像は14か国29の地域から収集された。
さらに、リモートセンシング分野における長期データの問題に対処するため、バランスのとれたデータセットRS-CMQA-Bを改良した。
さらに, 領域識別型マルチモーダルCMQAモデルを提案し, ソース領域と改ざん領域の差分と接続点の突発性を利用して, 改ざん画像に対する質問応答の精度を向上させる。
本手法は,一般的なVQAモデルやRSVQAモデルと比較して,RS-CMQAのベンチマークが優れていることを示す。
データセットとコードはhttps://github.com/shenyedepisa/RSCMQA.comで公開されています。
関連論文リスト
- Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - Visual Question Answering in Remote Sensing with Cross-Attention and
Multimodal Information Bottleneck [14.719648367178259]
遠隔センシングにおける視覚的質問応答(VQA)の問題に対処する。
リモートセンシングされた画像には、識別や物体検出のタスクに重要な情報が含まれているが、高次元性、体積、冗長性のため、その処理には大きな課題がある。
本稿では,情報とクロスアテンションに基づくアプローチを提案する。CNN-LSTMをベースとしたクロスアテンションは,画像と言語モダリティの情報を強調し,両者の関連性を確立すると同時に,VQAタスクを実行するために必要なすべての関連情報を持つ低次元層を学習する。
論文 参考訳(メタデータ) (2023-06-25T15:09:21Z) - Multi-Modal Fusion Transformer for Visual Question Answering in Remote
Sensing [1.491109220586182]
VQAは、ユーザがRS画像の内容に関する自由形式の質問を定式化し、ジェネリック情報を抽出することを可能にする。
現在の融合アプローチの多くは、合同表現学習の代わりに、その融合加群におけるモダリティ固有の表現を使用する。
この問題を解決するために,マルチモーダルトランスを用いたアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T09:20:33Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z) - RSVQA: Visual Question Answering for Remote Sensing Data [6.473307489370171]
本稿では,リモートセンシングデータ(RSVQA)における視覚的質問応答の課題を紹介する。
自然言語で定式化された質問を使って画像と対話する。
データセットは(教師付きメソッドを使用して)トレーニングや、RSVQAタスクを解決するためのモデル評価に使用することができる。
論文 参考訳(メタデータ) (2020-03-16T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。