論文の概要: HiSem: Hierarchical Semantic Disentangling for Remote Sensing Image Change Captioning
- arxiv url: http://arxiv.org/abs/2605.15024v1
- Date: Thu, 14 May 2026 16:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.943049
- Title: HiSem: Hierarchical Semantic Disentangling for Remote Sensing Image Change Captioning
- Title(参考訳): HiSem: リモートセンシングによる画像変更キャプションのための階層的セマンティックディスタングル
- Authors: Man Wang, Chenyang Liu, Wenjun Li, Feng Ni, Bing Jia, Baoqi Huang, Riting Xia, Zhenwei Shi,
- Abstract要約: リモートセンシング画像変化キャプション(RSICC)は、両時間画像間の真の変化の高レベルなセマンティック理解を実現することを目的としている。
既存の手法は、共有モデリングの前提によって根本的に制限されている。
本稿では,異なる粒度のセマンティック表現を明示的に切り離す階層型セマンティックディスタングルネットワーク(HiSem)を提案する。
- 参考スコア(独自算出の注目度): 30.51174005122181
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Remote sensing image change captioning (RSICC) aims to achieve high-level semantic understanding of genuine changes occurring between bi-temporal images. Despite notable progress, existing methods are fundamentally limited by a shared modeling assumption: changed and unchanged image pairs, which have intrinsically different semantic granularities, are processed under a unified modeling strategy. This modeling inconsistency leads to semantic entanglement between coarse-grained change existence judgment and fine-grained semantic understanding.To address the above limitation, we propose a novel hierarchical semantic disentangling network (HiSem) that explicitly disentangles semantic representations of different granularities. Specifically, we first introduce the Bidirectional Differential Attention Modulation (BDAM) module that leverages discrepancy-aware attention to enhance cross-temporal interactions, thereby amplifying true change signals while suppressing irrelevant variations. Building upon this, we design a Hierarchical Adaptive Semantic Disentanglement (HASD) module that performs adaptive routing at two hierarchical levels: a coarse-grained image-level routing mechanism distinguishes changed and unchanged image pairs, while a fine-grained token-level Mixture-of-Experts (MoE) block models diverse and heterogeneous change semantics for changed samples. Extensive experiments on two benchmark datasets demonstrate that HiSem outperfoms previous methods, achieving a significant improvement of +7.52\% BLEU-4 on the WHU-CDC dataset. More importantly, our approach provides a structured perspective for RSICC by explicitly aligning model design with the intrinsic semantic heterogeneity of bi-temporal scenes. The code will be available at https://github.com/Man-Wang-star/HiSem
- Abstract(参考訳): リモートセンシング画像変化キャプション(RSICC)は、両時間画像間の真の変化の高レベルなセマンティック理解を実現することを目的としている。
既存の手法は、顕著な進歩にもかかわらず、基本的に異なる意味的粒度を持つ変化と変化しないイメージペアを統一されたモデリング戦略の下で処理するという、共有モデリングの前提によって基本的に制限されている。
このモデルの不整合性は, 粗粒度変化存在判断と細粒度意味理解のセマンティックな絡み合いを生じさせ, 上記の制限に対処するために, 異なる粒度のセマンティックな表現を明示的に切り離す新しい階層的セマンティック・ディエンタングリング・ネットワーク(HiSem)を提案する。
具体的には,二方向微分アテンション変調(BDAM)モジュールを初めて導入し,不適切な変動を抑えつつ,時間的相互作用を増強し,真の変化信号の増幅を行う。
そこで我々は,階層型適応セマンティック・ディアングルメント (HASD) モジュールを設計し,2つの階層レベルで適応的ルーティングを行う。
2つのベンチマークデータセットに対する大規模な実験により、HiSemは以前の手法よりも優れており、WHU-CDCデータセットで+7.52\% BLEU-4を大幅に改善した。
さらに,本手法は,モデル設計とバイテンポラルシーンの内在的意味的不均一性を明示的に整合させることにより,RSICCの構造的視点を提供する。
コードはhttps://github.com/Man-Wang-star/HiSemで入手できる。
関連論文リスト
- Detect Changes like Humans: Incorporating Semantic Priors for Improved Change Detection [52.62459671461816]
本稿では,視覚基盤モデルからのセマンティックな先入観を取り入れ,変化を検出する能力の向上について検討する。
人間の視覚パラダイムにインスパイアされた新しいデュアルストリーム特徴デコーダは、意味認識特徴と差認識特徴を組み合わせることで変化を区別するために導出される。
論文 参考訳(メタデータ) (2024-12-22T08:27:15Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Align, Perturb and Decouple: Toward Better Leverage of Difference
Information for RSI Change Detection [24.249552791014644]
変化検出は、リモートセンシング画像(RSI)解析において広く採用されている手法である。
そこで我々は,アライメント,摂動,デカップリングといった差分情報を完全に活用するための一連の操作を提案する。
論文 参考訳(メタデータ) (2023-05-30T03:39:53Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Joint Spatio-Temporal Modeling for the Semantic Change Detection in
Remote Sensing Images [22.72105435238235]
両時間RSI間の「から」意味遷移を明示的にモデル化するための意味変化(SCanFormer)を提案する。
次に,SCDタスクに忠実な Transformer 時間制約を活用する意味学習手法を導入し,意味変化の学習を指導する。
結果として得られたネットワーク(SCanNet)は、決定的意味変化の検出と、得られた両時間的結果のセマンティック一貫性の両方において、ベースライン法より優れている。
論文 参考訳(メタデータ) (2022-12-10T08:49:19Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。