論文の概要: RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes
- arxiv url: http://arxiv.org/abs/2505.13212v2
- Date: Fri, 06 Jun 2025 08:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.979474
- Title: RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes
- Title(参考訳): RB-SCD:交通現場における道路・橋梁の意味的変化検出のための新しいベンチマーク
- Authors: Qingling Shu, Sibao Chen, Zhihui You, Wei Lu, Jin Tang, Bin Luo,
- Abstract要約: Road and Bridge Semantic Change Detection (RB-SCD)データセットは、260対の高解像度リモートセンシング画像からなるベンチマークである。
RB-SCDは多様な地域をカバーし、複数の国で10以上の都市にまたがる様々な道路や橋のタイプを含んでいる。
この挑戦的なデータセットに基づいて、MFDCD(Multimodal Frequency-Driven Change Detector)と呼ばれる新しいフレームワークを提案する。
MFDCDは周波数領域におけるマルチモーダル特性を統合しており、DFC(Dynamic Frequency Coupler)とTFF(Textual Frequency Filter)の2つの鍵成分から構成されている。
- 参考スコア(独自算出の注目度): 18.691803584095492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid modernization of urban transportation, accurately detecting changes such as road and bridge construction, renovation, and demolition is crucial for urban planning and traffic management. However, existing methods often struggle to extract fine-grained semantic changes in complex traffic scenes, largely due to the lack of high-quality annotated change detection (CD) datasets. To address this, we introduce the Road and Bridge Semantic Change Detection (RB-SCD) dataset, a comprehensive benchmark consisting of 260 pairs of high-resolution remote sensing images. RB-SCD spans diverse geographic areas and includes a wide variety of road and bridge types across over ten cities in multiple countries. It covers 11 distinct categories of semantic changes, enabling detailed structural and functional analysis. Based on this challenging dataset, we propose a novel framework called the Multimodal Frequency-Driven Change Detector (MFDCD). For the first time, MFDCD integrates multimodal feature characteristics in the frequency domain. It comprises two key components: the Dynamic Frequency Coupler (DFC) and the Textual Frequency Filter (TFF). DFC couples hierarchical visual features with wavelet-based frequency components, enhancing the perception of fine-grained and cross-temporal structural changes. TFF transforms textual features extracted by the CLIP model into the frequency domain via Fourier transform and applies graph-based filtering to extract salient frequency responses. These are then fused with visual features to enable effective multimodal representation learning. Extensive experiments show that MFDCD achieves strong performance on RB-SCD and three public benchmarks. The RB-SCD dataset, with its rich and diverse annotations, serves as a valuable resource for advancing research in road and bridge change detection under complex traffic conditions.
- Abstract(参考訳): 都市交通の急速な近代化により、道路や橋の建設、改修、解体といった変化を正確に検出することは、都市計画や交通管理に不可欠である。
しかし、既存の手法では、多くの場合、高品質な注釈付き変更検出(CD)データセットが欠如しているため、複雑なトラフィックシーンのきめ細かいセマンティックな変化を抽出するのに苦労する。
そこで我々は,260対の高解像度リモートセンシング画像からなる総合ベンチマークであるRoad and Bridge Semantic Change Detection (RB-SCD)データセットを紹介する。
RB-SCDは多様な地域をカバーし、複数の国で10以上の都市にまたがる様々な道路や橋のタイプを含んでいる。
11の異なる意味的変化のカテゴリをカバーし、詳細な構造的および機能的分析を可能にする。
この挑戦的なデータセットに基づいて、MFDCD(Multimodal Frequency-Driven Change Detector)と呼ばれる新しいフレームワークを提案する。
MFDCDは、周波数領域におけるマルチモーダル特徴を初めて統合する。
DFC(Dynamic Frequency Coupler)とTFF(Textual Frequency Filter)の2つの重要なコンポーネントから構成される。
DFCはウェーブレットに基づく周波数成分と階層的な視覚特徴を結合し、微細な粒度と時間的構造変化の知覚を高める。
TFFは、CLIPモデルによって抽出されたテキスト特徴をフーリエ変換により周波数領域に変換し、グラフベースのフィルタリングを適用して有意な周波数応答を抽出する。
これらは視覚的特徴と融合し、効果的なマルチモーダル表現学習を可能にする。
MFDCDはRB-SCDと3つの公開ベンチマークで高い性能を示す。
RB-SCDデータセットは、リッチで多様なアノテーションとともに、複雑な交通条件下での道路および橋梁変化検出の研究を進めるための貴重な資源となっている。
関連論文リスト
- DDLNet: Boosting Remote Sensing Change Detection with Dual-Domain Learning [5.932234366793244]
変化センシング(RSCD)は、多時間リモートセンシング画像を分析して、ある領域における関心の変化を特定することを目的としている。
既存のRSCD法は、関心の変化を高めるために空間領域におけるコンテキストモデリングに費やされている。
二重領域学習(周波数領域と空間領域)に基づくRSCDネットワークDNetを提案する。
論文 参考訳(メタデータ) (2024-06-19T14:54:09Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - Hierarchical Paired Channel Fusion Network for Street Scene Change
Detection [41.934290847053695]
ストリートシーン変化検出(Street Scene Change Detection, SSCD)は、特定のストリートビューイメージペア間で異なる時間にキャプチャされた変化領域を特定することを目的としている。
本稿では,HPCFNet (Hierarchical Paired Channel Fusion Network) を提案する。
本フレームワークは,シーン変化領域のスケールと位置の多様性に適応する新しいアプローチを実現する。
論文 参考訳(メタデータ) (2020-10-19T23:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。