論文の概要: Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
- arxiv url: http://arxiv.org/abs/2412.03515v1
- Date: Wed, 04 Dec 2024 17:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:54.588061
- Title: Distilling Diffusion Models to Efficient 3D LiDAR Scene Completion
- Title(参考訳): 効率的な3次元LiDARシーン完了のための蒸留拡散モデル
- Authors: Shengyuan Zhang, An Zhao, Ling Yang, Zejian Li, Chenye Meng, Haoran Xu, Tianrun Chen, AnYang Wei, Perry Pengyun GU, Lingyun Sun,
- Abstract要約: 拡散モデルが3次元LiDARシーン完了に適用された。
本稿では,3次元LiDARシーン補完モデルに適した新しい蒸留法について提案する。
- 参考スコア(独自算出の注目度): 25.517559974601813
- License:
- Abstract: Diffusion models have been applied to 3D LiDAR scene completion due to their strong training stability and high completion quality. However, the slow sampling speed limits the practical application of diffusion-based scene completion models since autonomous vehicles require an efficient perception of surrounding environments. This paper proposes a novel distillation method tailored for 3D LiDAR scene completion models, dubbed $\textbf{ScoreLiDAR}$, which achieves efficient yet high-quality scene completion. ScoreLiDAR enables the distilled model to sample in significantly fewer steps after distillation. To improve completion quality, we also introduce a novel $\textbf{Structural Loss}$, which encourages the distilled model to capture the geometric structure of the 3D LiDAR scene. The loss contains a scene-wise term constraining the holistic structure and a point-wise term constraining the key landmark points and their relative configuration. Extensive experiments demonstrate that ScoreLiDAR significantly accelerates the completion time from 30.55 to 5.37 seconds per frame ($>$5$\times$) on SemanticKITTI and achieves superior performance compared to state-of-the-art 3D LiDAR scene completion models. Our code is publicly available at https://github.com/happyw1nd/ScoreLiDAR.
- Abstract(参考訳): 拡散モデルが3次元LiDARシーン完了に適用された。
しかし,自動走行車は周囲環境の効率的な認識を必要とするため,サンプリング速度が遅いため,拡散型シーン補完モデルの実用化が制限される。
本稿では, 3次元LiDARシーン補完モデルに適した蒸留法を提案し, 効率的かつ高品質なシーン補完を実現する。
ScoreLiDARにより、蒸留されたモデルは蒸留後の著しく少ないステップでサンプリングすることができる。
また, 3次元LiDARシーンの幾何学的構造を抽出するための蒸留モデルとして, $\textbf{Structural Loss}$を導入した。
この損失は、全体構造を制約するシーンワイズ項と、キーランドマークポイントとその相対的な構成を制約するポイントワイズ項を含む。
大規模な実験により、ScoreLiDARはSemanticKITTI上で30.55秒から5.37秒($5$\times$)までの完了時間を著しく加速し、最先端の3D LiDARシーンの完了モデルと比較して優れたパフォーマンスを達成することが示された。
私たちのコードはhttps://github.com/happyw1nd/ScoreLiDARで公開されています。
関連論文リスト
- LiHi-GS: LiDAR-Supervised Gaussian Splatting for Highway Driving Scene Reconstruction [6.428928591765432]
Gaussian Splatting (GS)は、シーンの3Dガウス表現を明示してリアルタイムレンダリングを容易にする。
GSは暗黙のニューラルレイディアンスフィールド(NeRF)よりも高速な処理と直感的なシーン編集を提供する
動的シーン合成と編集のための新しいGS法を提案し,LiDARの監督とLiDARレンダリングのサポートを通じてシーン再構成を改善した。
論文 参考訳(メタデータ) (2024-12-19T22:59:55Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - $\textit{S}^3$Gaussian: Self-Supervised Street Gaussians for Autonomous Driving [82.82048452755394]
光リアルなストリートシーンの3D再構成は、現実の自動運転シミュレータを開発する上で重要な技術である。
既存のストリート3DGS法の多くは、静的および動的要素を分解するために、トラックされた3D車両バウンディングボックスを必要とする。
動的および静的な要素を4次元整合性から分解する自己教師付きストリートガウス(textitS3$Gaussian)手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:57:08Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - Scaling Diffusion Models to Real-World 3D LiDAR Scene Completion [25.69896680908217]
3D LiDARセンサーは、通常、シーンからスパース3Dポイントの雲を収集するために使用される。
本稿では,1枚のLiDARスキャンからシーン完了を実現するために,画像の生成モデルとして拡散モデルを拡張することを提案する。
提案手法は,1つのLiDARスキャンを入力としてシーンを完了し,最先端のシーン補完手法と比較して,より詳細なシーンを生成する。
論文 参考訳(メタデータ) (2024-03-20T10:19:05Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - PC-NeRF: Parent-Child Neural Radiance Fields Using Sparse LiDAR Frames
in Autonomous Driving Environments [3.1969023045814753]
親子ニューラルレイディアンス場(PC-NeRF)と呼ばれる3次元シーン再構成と新しいビュー合成フレームワークを提案する。
PC-NeRFは、シーン、セグメント、ポイントレベルを含む階層的な空間分割とマルチレベルシーン表現を実装している。
広範にわたる実験により,PC-NeRFは大規模シーンにおける高精度なLiDARビュー合成と3次元再構成を実現することが証明された。
論文 参考訳(メタデータ) (2024-02-14T17:16:39Z) - Pyramid Diffusion for Fine 3D Large Scene Generation [56.00726092690535]
拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。
大規模な3Dシーンの合成への応用はめったに研究されていない。
本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。
論文 参考訳(メタデータ) (2023-11-20T11:24:21Z) - Weakly Supervised 3D Object Detection with Multi-Stage Generalization [62.96670547848691]
擬似ラベル生成と多段階一般化を含むBA$2$-Detを導入する。
一般化の3つの段階、完全から部分へ、静的から動的へ、そして遠い距離へ進む。
BA$2$-Detは、KITTIデータセットの20%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2023-06-08T17:58:57Z) - LODE: Locally Conditioned Eikonal Implicit Scene Completion from Sparse
LiDAR [5.900616958195897]
シーン完了(Scene completion)とは、複雑な3Dシーンの不完全な認識から密集したシーン表現を得ることである。
近年の進歩は、暗黙の表現学習を連続的なシーン完了に活用できることを示している。
本稿では,密接な境界値制約として機能する局所的な形状の事前表現を暗黙的に規定する新しいアイコン式を提案する。
論文 参考訳(メタデータ) (2023-02-27T18:59:58Z) - Searching Efficient 3D Architectures with Sparse Point-Voxel Convolution [34.713667358316286]
自動運転車は安全に運転するために、3Dシーンを効率的に正確に理解する必要がある。
既存の3次元知覚モデルは、低解像度のボキセル化とアグレッシブなダウンサンプリングのために、小さなインスタンスを十分に認識できない。
Sparse Point-Voxel Convolution (SPVConv) は,バニラ・スパース・コンボリューションを高分解能な点ベース分岐に装備する軽量な3次元モジュールである。
論文 参考訳(メタデータ) (2020-07-31T14:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。