Fugu-MT 論文翻訳(概要): DPG-CD: Depth-Prior-Guided Cross-Modal Joint 2D-3D Change Detection

論文の概要: DPG-CD: Depth-Prior-Guided Cross-Modal Joint 2D-3D Change Detection

arxiv url: http://arxiv.org/abs/2605.07151v1
Date: Fri, 08 May 2026 02:36:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.753007
Title: DPG-CD: Depth-Prior-Guided Cross-Modal Joint 2D-3D Change Detection
Title（参考訳）: DPG-CD:奥行き誘導型クロスモーダルジョイント2D-3D変化検出
Authors: Luqi Zhang, Zhen Dong, Bisheng Yang,
Abstract要約: DPG-CDは2次元の関節意味と3次元の高さ変化検出のための深度誘導型多時間相互融合フレームワークである。ゲート融合機構は、識別スペクトル表現を保持しながら、深さから幾何学的キューを選択的に注入する。 Hi-BCDと3DCDという2つの公開データセットの実験と、新しいデータセットであるNYC-MMCDは、DPG-CDが2Dと3Dの両方の変更検出タスクにおいて最先端の手法より優れていることを示した。
参考スコア（独自算出の注目度）: 11.247504713156887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Urban spatial evolution is manifested not only through horizontal expansion but also through vertical structural changes. Consequently, jointly capturing 2D semantic changes and 3D height changes is essential for urban morphology analysis and emergency management. In practical scenarios, collecting 3D observations is often constrained by high acquisition costs and the inability to support frequent updates. The multi-temporal cross-modal input consisting of pre-event Digital Surface Model (DSM) and post-event imagery provides a practical solution for 3D change detection in high-frequency urban monitoring, disaster assessment, and emergency response scenarios. However, this setting remains challenging as imagery and DSM data exhibit significant spectral-geometric representation gaps. Moreover, modality differences may be confused with actual changes, and robust change detection requires effective fusion of semantic and geometric features from multi-temporal data. In this paper, we propose DPG-CD, a depth-prior-guided multi-temporal cross-modal fusion framework for joint 2D semantic and 3D height change detection. Specifically, an estimated depth prior is introduced into the imagery to mitigate the modality gap with DSM. A gated fusion mechanism then selectively injects geometric cues from depth prior while preserving discriminative spectral representations. Subsequently, a multi-stage cross-temporal cross-modal feature fusion architecture is employed to extract change-aware features. Finally, a multi-task decoder jointly predicts 2D semantic changes and 3D height changes, complemented by an auxiliary DSM prediction task to improve structural consistency and height estimation accuracy. Experiments on two public datasets, Hi-BCD and 3DCD, and a new dataset, NYC-MMCD, demonstrate that DPG-CD outperforms state-of-the-art methods on both 2D and 3D change detection tasks.
Abstract（参考訳）: 都市空間の進化は、水平展開だけでなく、垂直構造変化によっても表される。その結果,都市形態解析と緊急管理には2次元のセマンティックな変化と3次元の高さの変化が不可欠である。現実的なシナリオでは、3D観察の収集は、しばしば高い取得コストと頻繁な更新をサポートすることができないために制約される。プレイベント・デジタル・サーフェス・モデル(DSM)とポストイベント・イメージからなる多時間的クロスモーダル・インプットは,高頻度都市モニタリング,災害評価,緊急対応シナリオにおける3次元変化検出の実用的なソリューションを提供する。しかし、画像とDSMデータにスペクトル幾何学的表現ギャップが著しいため、この設定は依然として困難である。さらに、モダリティの違いは実際の変化と混同される可能性があり、ロバストな変化検出には、多時間データから意味的特徴と幾何学的特徴を効果的に融合する必要がある。本稿では,DPG-CDを提案する。DPG-CDは,2次元のセマンティクスと3次元の高さ変化検出のための多時間相互融合フレームワークである。具体的には、DSMとのモダリティギャップを軽減するために、画像に推定深度を予め導入する。ゲート融合機構は、識別スペクトル表現を保持しながら、深さから幾何学的キューを選択的に注入する。その後、マルチステージの時間的クロスモーダルな特徴融合アーキテクチャを用いて、変化を認識した特徴を抽出する。最後に、マルチタスクデコーダは2次元意味変化と3次元高さ変化を共同で予測し、補助的なDSM予測タスクによって補完し、構造的一貫性と高さ推定精度を向上させる。 Hi-BCDと3DCDという2つの公開データセットの実験と、新しいデータセットであるNYC-MMCDは、DPG-CDが2Dと3Dの両方の変更検出タスクにおいて最先端の手法より優れていることを示した。

関連論文リスト

3D Scene Change Modeling With Consistent Multi-View Aggregation [18.547603626073585]
SCaR-3Dは、3次元シーン変化検出フレームワークであり、濃密な事前変化画像シーケンスとスパース的な後変化画像からオブジェクトレベルの変化を識別する。提案手法は, 符号付き距離ベース2次元差分モジュールと, 投票, プルーニングによる多視点アグリゲーションからなる。また,変化しない領域を保存しながら動的領域を選択的に更新する連続的なシーン再構築戦略も開発している。
論文参考訳（メタデータ） (2025-12-28T08:00:56Z)
StereoMV2D: A Sparse Temporal Stereo-Enhanced Framework for Robust Multi-View 3D Object Detection [31.8104389684728]
本稿では2次元検出誘導多視点3D検出器に時間的ステレオモデリングを統合する統合フレームワークであるStereoMV2Dを提案する。 StereoMV2Dは、隣接するフレームにまたがる同じオブジェクトの時間的差異を利用して、深度知覚を強化し、クエリ先行を洗練する。 nuScenesとArgoverse 2データセットの実験により、StereoMV2Dは計算オーバーヘッドを発生させることなく、優れた検出性能を実現することが示された。
論文参考訳（メタデータ） (2025-12-19T14:25:46Z)
FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers [91.59069344768858]
周波数対応位置深度埋め込み (FreqPDE) を導入し, 空間情報と2次元画像特徴を付加して3次元検出変換器デコーダを提案する。 FreqPDEは2D画像特徴と3D位置埋め込みを組み合わせることで、クエリデコーディングのための3D深度認識機能を生成する。
論文参考訳（メタデータ） (2025-10-17T07:36:54Z)
GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。 GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文参考訳（メタデータ） (2024-12-12T17:59:03Z)
UltimateDO: An Efficient Framework to Marry Occupancy Prediction with 3D Object Detection via Channel2height [2.975860548186652]
現代の自律運転システムでは、作業と3Dオブジェクト検出が標準的な2つのタスクである。高速な3次元物体検出と占有予測(UltimateDO)を実現する手法を提案する。
論文参考訳（メタデータ） (2024-09-17T13:14:13Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
Transformer-based Multimodal Change Detection with Multitask Consistency Constraints [10.906283981247796]
現在の変化検出方法は、意味変化検出タスクと高さ変化検出タスクのマルチタスク競合に対処する。そこで我々は,クロスアテンションにより,多次元入力間の共有表現を学習する効率的なトランスフォーマーネットワークを提案する。提案手法は,5つの現状変化検出手法と比較して,意味的および高さ変化検出の観点から,一貫したマルチタスク優位性を示す。
論文参考訳（メタデータ） (2023-10-13T17:38:45Z)
NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文参考訳（メタデータ） (2023-09-26T02:09:52Z)
A Dual-Masked Auto-Encoder for Robust Motion Capture with Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文参考訳（メタデータ） (2022-07-15T10:00:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。