論文の概要: Diffusion-Based Restoration for Multi-Modal 3D Object Detection in Adverse Weather
- arxiv url: http://arxiv.org/abs/2512.13107v1
- Date: Mon, 15 Dec 2025 09:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.594555
- Title: Diffusion-Based Restoration for Multi-Modal 3D Object Detection in Adverse Weather
- Title(参考訳): 逆気象下における多モード3次元物体検出のための拡散に基づく復元
- Authors: Zhijian He, Feifei Liu, Yuwei Li, Zhanpeng Liu, Jintao Cheng, Xieyuanli Chen, Xiaoyu Tang,
- Abstract要約: DiffFusionは、挑戦的な天候における堅牢性を高めるために設計された新しいフレームワークである。
私たちのキーとなる洞察は、拡散モデルはデータをノイズ化し、生成する強力な能力を持っているということです。
DiffFusionの実装はオープンソースとしてリリースされます。
- 参考スコア(独自算出の注目度): 16.229895593496206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal 3D object detection is important for reliable perception in robotics and autonomous driving. However, its effectiveness remains limited under adverse weather conditions due to weather-induced distortions and misalignment between different data modalities. In this work, we propose DiffFusion, a novel framework designed to enhance robustness in challenging weather through diffusion-based restoration and adaptive cross-modal fusion. Our key insight is that diffusion models possess strong capabilities for denoising and generating data that can adapt to various weather conditions. Building on this, DiffFusion introduces Diffusion-IR restoring images degraded by weather effects and Point Cloud Restoration (PCR) compensating for corrupted LiDAR data using image object cues. To tackle misalignments between two modalities, we develop Bidirectional Adaptive Fusion and Alignment Module (BAFAM). It enables dynamic multi-modal fusion and bidirectional bird's-eye view (BEV) alignment to maintain consistent spatial correspondence. Extensive experiments on three public datasets show that DiffFusion achieves state-of-the-art robustness under adverse weather while preserving strong clean-data performance. Zero-shot results on the real-world DENSE dataset further validate its generalization. The implementation of our DiffFusion will be released as open-source.
- Abstract(参考訳): マルチモーダル3次元物体検出はロボット工学と自律運転における信頼性の高い認識に重要である。
しかし, 悪天候条件下では, 気象に伴う歪みやデータモダリティの相違により, 有効性は限られている。
本研究では,拡散型回復と適応型クロスモーダル融合による挑戦的気象の堅牢性向上を目的とした新しいフレームワークであるDiffFusionを提案する。
我々の重要な洞察は、拡散モデルが様々な気象条件に適応可能なデータを分解・生成する強力な能力を持っていることである。
これに基づいてDiffFusionは、気象効果によって劣化した拡散赤外画像と、画像オブジェクトキューを使用して劣化したLiDARデータを補償するポイントクラウド復元(PCR)を導入している。
2つのモード間のミスアライメントに対処するため、双方向適応核融合・アライメントモジュール(BAFAM)を開発した。
動的多モード融合と双方向鳥眼ビュー(BEV)アライメントを可能にし、一貫した空間対応を維持する。
3つの公開データセットに対する大規模な実験は、DiffFusionが強いクリーンデータのパフォーマンスを維持しながら、悪天候下で最先端のロバスト性を達成することを示している。
実世界のDENSEデータセットのゼロショット結果は、その一般化をさらに検証する。
DiffFusionの実装はオープンソースとしてリリースされます。
関連論文リスト
- 2D_3D Feature Fusion via Cross-Modal Latent Synthesis and Attention Guided Restoration for Industrial Anomaly Detection [9.873449426376787]
マルチモーダル・アテンショナル・フュージョン・リカバリ(MAFR)を新たに提案する。
MAFRは、共有核融合エンコーダを用いて、RGB画像と点雲から統一された潜在空間を合成し、その後、注意誘導されたモダリティ特異的デコーダを付加する。
異常は入力特徴と復元された特徴との間の再構成誤差を測定することで局所化される。
論文 参考訳(メタデータ) (2025-10-20T03:57:50Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - CFMW: Cross-modality Fusion Mamba for Robust Object Detection under Adverse Weather [15.472015859766069]
気象条件下での安定性と費用対効果を高めるため,CFMWを用いたクロスモダリティ・フュージョン・マンバを提案する。
CFMWは、悪天候による視覚的特徴を再構築することができ、画像の詳細を表現できる。
関連するデータセットのギャップを埋めるため、Severre Weather Visible-Infrared(SWVI)データセットを構築した。
論文 参考訳(メタデータ) (2024-04-25T02:54:11Z) - ContextualFusion: Context-Based Multi-Sensor Fusion for 3D Object Detection in Adverse Operating Conditions [1.7537812081430004]
本研究では,3次元物体検出モデルにカメラやライダーの知識を取り入れたContextualFusionという手法を提案する。
我々の手法は、文脈バランスの取れた合成データセットの最先端手法に対して6.2%のmAP改善をもたらす。
本手法は,実世界のNuScenesデータセット上での夜間の3D対物性能を11.7%向上させる。
論文 参考訳(メタデータ) (2024-04-23T06:37:54Z) - Improving Robustness of LiDAR-Camera Fusion Model against Weather
Corruption from Fusion Strategy Perspective [26.391161934274876]
LiDAR-カメラ融合モデルには、自律運転における高度な3Dオブジェクト検出タスクがある。
霧、雨、雪、日光といった 一般的な悪天候に対する頑丈さは 未発見のままです
本稿では,核融合モデルの堅牢性を高めるために,簡潔かつ実用的な核融合戦略を提案する。
論文 参考訳(メタデータ) (2024-02-05T05:38:50Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。