論文の概要: RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes
- arxiv url: http://arxiv.org/abs/2505.13212v1
- Date: Mon, 19 May 2025 14:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.679736
- Title: RB-SCD: A New Benchmark for Semantic Change Detection of Roads and Bridges in Traffic Scenes
- Title(参考訳): RB-SCD:交通現場における道路・橋梁の意味的変化検出のための新しいベンチマーク
- Authors: Qingling Shu, Sibao Chen, Zhihui You, Wei Lu, Jin Tang, Bin Luo,
- Abstract要約: 260対の高解像度リモートセンシング画像からなる総合的なベンチマークであるRoad and Bridge Semantic Change Detection (RB-SCD)データセットを紹介する。
RB-SCDは、様々な道路構造と橋梁構造にまたがる11種類の意味的変化を捉え、詳細な構造的および機能的分析を可能にする。
周波数領域にマルチモーダル機能を組み込んだMFDCD(Multimodal Frequency-Driven Change Detector)を提案する。
- 参考スコア(独自算出の注目度): 18.691803584095492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate detection of changes in roads and bridges, such as construction, renovation, and demolition, is essential for urban planning and traffic management. However, existing methods often struggle to extract fine-grained semantic change information due to the lack of high-quality annotated datasets in traffic scenarios. To address this, we introduce the Road and Bridge Semantic Change Detection (RB-SCD) dataset, a comprehensive benchmark comprising 260 pairs of high-resolution remote sensing images from diverse cities and countries. RB-SCD captures 11 types of semantic changes across varied road and bridge structures, enabling detailed structural and functional analysis. Building on this dataset, we propose a novel framework, Multimodal Frequency-Driven Change Detector (MFDCD), which integrates multimodal features in the frequency domain. MFDCD includes a Dynamic Frequency Coupler (DFC) that fuses hierarchical visual features with wavelet-based frequency components, and a Textual Frequency Filter (TFF) that transforms CLIP-derived textual features into the frequency domain and applies graph-based filtering. Experimental results on RB-SCD and three public benchmarks demonstrate the effectiveness of our approach.
- Abstract(参考訳): 建設、改修、解体などの道路や橋梁の変化の正確な検出は、都市計画や交通管理に不可欠である。
しかし,既存の手法では,交通シナリオにおける高品質なアノテートデータセットの欠如により,詳細なセマンティックチェンジ情報の抽出に苦慮することが多い。
そこで本稿では,道路・橋梁セマンティック・チェンジ検出(RB-SCD)データセットについて紹介する。
RB-SCDは、様々な道路構造と橋梁構造にまたがる11種類の意味的変化を捉え、詳細な構造的および機能的分析を可能にする。
このデータセットに基づいて,周波数領域にマルチモーダル特徴を統合するMFDCD(Multimodal Frequency-Driven Change Detector)を提案する。
MFDCDには、ウェーブレットベースの周波数成分と階層的な視覚特徴を融合するダイナミック周波数カプラ(DFC)と、CLIP由来のテキスト特徴を周波数領域に変換してグラフベースのフィルタリングを適用するテキスト周波数フィルタ(TFF)が含まれている。
RB-SCDと3つの公開ベンチマークの実験結果から,本手法の有効性が示された。
関連論文リスト
- DDLNet: Boosting Remote Sensing Change Detection with Dual-Domain Learning [5.932234366793244]
変化センシング(RSCD)は、多時間リモートセンシング画像を分析して、ある領域における関心の変化を特定することを目的としている。
既存のRSCD法は、関心の変化を高めるために空間領域におけるコンテキストモデリングに費やされている。
二重領域学習(周波数領域と空間領域)に基づくRSCDネットワークDNetを提案する。
論文 参考訳(メタデータ) (2024-06-19T14:54:09Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - Hierarchical Paired Channel Fusion Network for Street Scene Change
Detection [41.934290847053695]
ストリートシーン変化検出(Street Scene Change Detection, SSCD)は、特定のストリートビューイメージペア間で異なる時間にキャプチャされた変化領域を特定することを目的としている。
本稿では,HPCFNet (Hierarchical Paired Channel Fusion Network) を提案する。
本フレームワークは,シーン変化領域のスケールと位置の多様性に適応する新しいアプローチを実現する。
論文 参考訳(メタデータ) (2020-10-19T23:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。