論文の概要: Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
- arxiv url: http://arxiv.org/abs/2508.08974v1
- Date: Tue, 12 Aug 2025 14:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.458851
- Title: Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering
- Title(参考訳): ドメイン一般化変化検出視覚質問応答のためのテキスト条件付き状態空間モデル
- Authors: Elman Ghazaei, Erchan Aptoula,
- Abstract要約: 変化検出法は通常、正確な解釈のために専門家の知識を必要とする。
新しいマルチモーダルおよびマルチドメインデータセットであるBrightVQAを導入し、ドメインの一般化研究を容易にする。
TCSSM(Text-Conditioned State Space Model)フレームワークは,両時間画像とジオディザスター関連テキスト情報の両方を活用するために提案されている。
- 参考スコア(独自算出の注目度): 5.770351255180493
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Earth's surface is constantly changing, and detecting these changes provides valuable insights that benefit various aspects of human society. While traditional change detection methods have been employed to detect changes from bi-temporal images, these approaches typically require expert knowledge for accurate interpretation. To enable broader and more flexible access to change information by non-expert users, the task of Change Detection Visual Question Answering (CDVQA) has been introduced. However, existing CDVQA methods have been developed under the assumption that training and testing datasets share similar distributions. This assumption does not hold in real-world applications, where domain shifts often occur. In this paper, the CDVQA task is revisited with a focus on addressing domain shift. To this end, a new multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate domain generalization research in CDVQA. Furthermore, a novel state space model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The TCSSM framework is designed to leverage both bi-temporal imagery and geo-disaster-related textual information in an unified manner to extract domain-invariant features across domains. Input-dependent parameters existing in TCSSM are dynamically predicted by using both bi-temporal images and geo-disaster-related description, thereby facilitating the alignment between bi-temporal visual data and the associated textual descriptions. Extensive experiments are conducted to evaluate the proposed method against state-of-the-art models, and superior performance is consistently demonstrated. The code and dataset will be made publicly available upon acceptance at https://github.com/Elman295/TCSSM.
- Abstract(参考訳): 地球の表面は常に変化しており、これらの変化を検知することは、人間の社会の様々な側面に利益をもたらす貴重な洞察を与える。
従来の変化検出手法は、バイテンポラル画像からの変化を検出するのに使われてきたが、これらの手法は通常、正確な解釈のために専門家の知識を必要とする。
非専門家による変更情報へのより広範囲で柔軟なアクセスを可能にするために,CDVQA(Change Detection Visual Question Answering)タスクが導入されている。
しかし、既存のCDVQA手法は、データセットのトレーニングとテストが同様の分布を共有するという前提のもとに開発された。
この仮定は、ドメインシフトが頻繁に発生する現実世界のアプリケーションには当てはまらない。
本稿では,CDVQAタスクについて,ドメインシフトに対処することに焦点を当てて再検討する。
この目的のために、CDVQAにおける領域一般化研究を促進するために、新しいマルチモーダルおよびマルチドメインデータセットであるBrightVQAが導入された。
さらに,TCSSM(Text-Conditioned State Space Model)と呼ばれる新しい状態空間モデルを提案する。
TCSSMフレームワークは、両時間画像とジオディザスター関連テキスト情報の両方を統一的に活用して、ドメイン間のドメイン不変の特徴を抽出するように設計されている。
TCSSMに存在する入力依存パラメータは、バイテンポラル画像とジオディザスタ関連記述の両方を用いて動的に予測され、これにより、バイテンポラルビジュアルデータと関連するテキスト記述のアライメントが容易になる。
提案手法を最先端モデルに対して評価するために大規模な実験を行い、優れた性能を一貫して示す。
コードとデータセットはhttps://github.com/Elman295/TCSSMで公開される。
関連論文リスト
- Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - A Late-Stage Bitemporal Feature Fusion Network for Semantic Change Detection [32.112311027857636]
そこで本研究では,意味変化検出の課題に対処するため,新しい2段階の時間的特徴融合ネットワークを提案する。
具体的には,特徴融合を強化するため,局所的グローバルアテンショナルアグリゲーションモジュールを提案し,重要なセマンティクスを強調するために,局所的グローバルなコンテキスト拡張モジュールを提案する。
提案モデルにより,両データセットの最先端性能が向上する。
論文 参考訳(メタデータ) (2024-06-15T16:02:10Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - Context-aware Domain Adaptation for Time Series Anomaly Detection [69.3488037353497]
時系列異常検出は、幅広い現実世界の応用において難しい課題である。
近年,類似分野の知識を活用するため,時系列領域適応への取り組みが進められている。
本研究では,コンテキストサンプリングと異常検出を併用した共同学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-15T02:28:58Z) - MapFormer: Boosting Change Detection by Using Pre-change Information [2.436285270638041]
地表面の特徴を記述した既存の地図を両時間画像の変化検出に活用する。
潜在表現の連結による付加情報の簡易な統合は、最先端の変更検出方法よりもはるかに優れていることを示す。
提案手法は,DynamicEarthNet と HRSCD のバイナリ変更 IoU において,絶対 11.7% と 18.4% で既存の変更検出手法より優れている。
論文 参考訳(メタデータ) (2023-03-31T07:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。