論文の概要: Semantic Change Detection of Roads and Bridges: A Fine-grained Dataset and Multimodal Frequency-driven Detector
- arxiv url: http://arxiv.org/abs/2505.13212v3
- Date: Fri, 19 Sep 2025 03:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.026055
- Title: Semantic Change Detection of Roads and Bridges: A Fine-grained Dataset and Multimodal Frequency-driven Detector
- Title(参考訳): 道路・橋梁の意味的変化検出:細粒度データセットとマルチモーダル周波数駆動検出器
- Authors: Qingling Shu, Sibao Chen, Xiao Wang, Zhihui You, Wei Lu, Jin Tang, Bin Luo,
- Abstract要約: 主要な困難は、直線構造として道路や橋の連続性を維持することにある。
既存の空間領域モデルはこれらの問題に対処する。
本稿では,RB-SCD(Road and Bridge Semantic Change Detection)データセットを紹介する。
道路や橋梁のセマンティックチェンジ検出をシステマティックに対象とする最初のベンチマークとして、RB-SCDは11のセマンティックチェンジカテゴリに対して、包括的な詳細なアノテーションを提供する。
我々はMFDCD(Multimodal Frequency-Driven Change Detector)という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.439200993839535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate detection of road and bridge changes is crucial for urban planning and transportation management, yet presents unique challenges for general change detection (CD). Key difficulties arise from maintaining the continuity of roads and bridges as linear structures and disambiguating visually similar land covers (e.g., road construction vs. bare land). Existing spatial-domain models struggle with these issues, further hindered by the lack of specialized, semantically rich datasets. To fill these gaps, we introduce the Road and Bridge Semantic Change Detection (RB-SCD) dataset. As the first benchmark to systematically target semantic change detection of roads and bridges, RB-SCD offers comprehensive fine-grained annotations for 11 semantic change categories. This enables a detailed analysis of traffic infrastructure evolution. Building on this, we propose a novel framework, the Multimodal Frequency-Driven Change Detector (MFDCD). MFDCD integrates multimodal features in the frequency domain through two key components: (1) the Dynamic Frequency Coupler (DFC), which leverages wavelet transform to decompose visual features, enabling it to robustly model the continuity of linear transitions; and (2) the Textual Frequency Filter (TFF), which encodes semantic priors into frequency-domain graphs and applies filter banks to align them with visual features, resolving semantic ambiguities. Experiments demonstrate the state-of-the-art performance of MFDCD on RB-SCD and three public CD datasets. The code will be available at https://github.com/DaGuangDaGuang/RB-SCD.
- Abstract(参考訳): 道路・橋梁変更の正確な検出は都市計画・交通管理に不可欠であるが, 一般変更検出(CD)に特有の課題が提示されている。
主な困難は、直線構造としての道路と橋の連続性を維持し、視覚的に類似した土地被覆(例えば、道路建設対裸地)を曖昧にすることである。
既存の空間領域モデルはこれらの問題に苦しむが、専門的でセマンティックにリッチなデータセットの欠如によりさらに妨げられる。
これらのギャップを埋めるために、Road and Bridge Semantic Change Detection (RB-SCD)データセットを導入します。
道路や橋梁のセマンティックチェンジ検出をシステマティックに対象とする最初のベンチマークとして、RB-SCDは11のセマンティックチェンジカテゴリに対して、包括的な詳細なアノテーションを提供する。
これにより、交通インフラの進化を詳細に分析することができる。
そこで我々は,MFDCD(Multimodal Frequency-Driven Change Detector)という新しいフレームワークを提案する。
MFDCDは、2つの主要なコンポーネントを通して周波数領域のマルチモーダルな特徴を統合する。(1) ウェーブレット変換を利用して視覚的特徴を分解し、線形遷移の連続性を堅牢にモデル化するDFC、(2) 意味的先行を周波数領域グラフにエンコードし、フィルタバンクを用いて視覚的特徴と整合させ、意味的あいまいさを解消するTFF(Textual Frequency Filter)である。
RB-SCDおよび3つの公開CDデータセット上でのMFDCDの最先端性能について実験を行った。
コードはhttps://github.com/DaGuangDaGuang/RB-SCDで入手できる。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - DDLNet: Boosting Remote Sensing Change Detection with Dual-Domain Learning [5.932234366793244]
変化センシング(RSCD)は、多時間リモートセンシング画像を分析して、ある領域における関心の変化を特定することを目的としている。
既存のRSCD法は、関心の変化を高めるために空間領域におけるコンテキストモデリングに費やされている。
二重領域学習(周波数領域と空間領域)に基づくRSCDネットワークDNetを提案する。
論文 参考訳(メタデータ) (2024-06-19T14:54:09Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - Change Detection in Synthetic Aperture Radar Images Using a Dual-Domain
Network [33.50775914682585]
合成開口レーダ(SAR)画像からの変化検出は、重要かつ困難な作業です。
既存の手法は主に空間領域の特徴抽出に焦点を当てており、周波数領域にはほとんど注意が払われていない。
上記の2つの課題に取り組むためのデュアルドメインネットワークを提案します。
論文 参考訳(メタデータ) (2021-04-14T08:41:48Z) - Hierarchical Paired Channel Fusion Network for Street Scene Change
Detection [41.934290847053695]
ストリートシーン変化検出(Street Scene Change Detection, SSCD)は、特定のストリートビューイメージペア間で異なる時間にキャプチャされた変化領域を特定することを目的としている。
本稿では,HPCFNet (Hierarchical Paired Channel Fusion Network) を提案する。
本フレームワークは,シーン変化領域のスケールと位置の多様性に適応する新しいアプローチを実現する。
論文 参考訳(メタデータ) (2020-10-19T23:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。