論文の概要: DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion
- arxiv url: http://arxiv.org/abs/2505.01857v1
- Date: Sat, 03 May 2025 16:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.298783
- Title: DualDiff: Dual-branch Diffusion Model for Autonomous Driving with Semantic Fusion
- Title(参考訳): DualDiff:セマンティックフュージョンを用いた自律走行のためのデュアルブランチ拡散モデル
- Authors: Haoteng Li, Zhao Yang, Zezhong Qian, Gongpeng Zhao, Yuqi Huang, Jun Yu, Huazheng Zhou, Longjun Liu,
- Abstract要約: マルチビュー駆動シーン生成のための2分岐条件拡散モデルであるDualDiffを提案する。
Occupancy Ray Sampling (ORS) という意味豊かな3次元表現を数値駆動シーン表現とともに導入する。
モーダル間の情報統合を改善するために,モーダル間の特徴の整合・融合を行うセマンティック・フュージョン・アテンション(SFA)機構を提案する。
- 参考スコア(独自算出の注目度): 9.225796678303487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate and high-fidelity driving scene reconstruction relies on fully leveraging scene information as conditioning. However, existing approaches, which primarily use 3D bounding boxes and binary maps for foreground and background control, fall short in capturing the complexity of the scene and integrating multi-modal information. In this paper, we propose DualDiff, a dual-branch conditional diffusion model designed to enhance multi-view driving scene generation. We introduce Occupancy Ray Sampling (ORS), a semantic-rich 3D representation, alongside numerical driving scene representation, for comprehensive foreground and background control. To improve cross-modal information integration, we propose a Semantic Fusion Attention (SFA) mechanism that aligns and fuses features across modalities. Furthermore, we design a foreground-aware masked (FGM) loss to enhance the generation of tiny objects. DualDiff achieves state-of-the-art performance in FID score, as well as consistently better results in downstream BEV segmentation and 3D object detection tasks.
- Abstract(参考訳): 高精度かつ高忠実な運転シーン再構築は、条件付けとしてシーン情報を完全に活用することに依存している。
しかしながら、3Dバウンディングボックスとバイナリマップを主に前景と背景制御に使用している既存のアプローチは、シーンの複雑さを捉え、マルチモーダル情報を統合するのに不足している。
本論文では,マルチビュー駆動シーン生成のための2分岐条件拡散モデルであるDualDiffを提案する。
Occupancy Ray Sampling (ORS) は3次元のセマンティック・リッチな表現であり、数値駆動シーンの表現と並んで、総合的なフォアグラウンドと背景制御を行う。
モーダル間の情報統合を改善するために,モーダル間の特徴の整合・融合を行うセマンティック・フュージョン・アテンション(SFA)機構を提案する。
さらに,小物体の生成を促進するために,前景認識マスク(FGM)損失を設計する。
DualDiffは、FIDスコアにおける最先端のパフォーマンスを達成するとともに、下流のBEVセグメンテーションと3Dオブジェクト検出タスクにおいて、一貫してより良い結果をもたらす。
関連論文リスト
- DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance [5.113012982922924]
本稿では,複数のビューやビデオシーケンスをまたいだ運転シーン生成を支援する条件拡散モデルであるDualDiffを提案する。
微粒な前景オブジェクトの合成を改善するために,FGM (Foreground-Aware Mask) denoising loss関数を提案する。
また,関連する情報を動的に優先順位付けし,ノイズを抑えるために,意味融合注意(Semantic Fusion Attention,SFA)機構を開発した。
論文 参考訳(メタデータ) (2025-03-05T17:31:45Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。