論文の概要: Scaling Diffusion Models to Real-World 3D LiDAR Scene Completion
- arxiv url: http://arxiv.org/abs/2403.13470v1
- Date: Wed, 20 Mar 2024 10:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 17:18:34.491272
- Title: Scaling Diffusion Models to Real-World 3D LiDAR Scene Completion
- Title(参考訳): 実世界3次元LiDARシーンコンプリートへの拡散モデルのスケーリング
- Authors: Lucas Nunes, Rodrigo Marcuzzi, Benedikt Mersch, Jens Behley, Cyrill Stachniss,
- Abstract要約: 3D LiDARセンサーは、通常、シーンからスパース3Dポイントの雲を収集するために使用される。
本稿では,1枚のLiDARスキャンからシーン完了を実現するために,画像の生成モデルとして拡散モデルを拡張することを提案する。
提案手法は,1つのLiDARスキャンを入力としてシーンを完了し,最先端のシーン補完手法と比較して,より詳細なシーンを生成する。
- 参考スコア(独自算出の注目度): 25.69896680908217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision techniques play a central role in the perception stack of autonomous vehicles. Such methods are employed to perceive the vehicle surroundings given sensor data. 3D LiDAR sensors are commonly used to collect sparse 3D point clouds from the scene. However, compared to human perception, such systems struggle to deduce the unseen parts of the scene given those sparse point clouds. In this matter, the scene completion task aims at predicting the gaps in the LiDAR measurements to achieve a more complete scene representation. Given the promising results of recent diffusion models as generative models for images, we propose extending them to achieve scene completion from a single 3D LiDAR scan. Previous works used diffusion models over range images extracted from LiDAR data, directly applying image-based diffusion methods. Distinctly, we propose to directly operate on the points, reformulating the noising and denoising diffusion process such that it can efficiently work at scene scale. Together with our approach, we propose a regularization loss to stabilize the noise predicted during the denoising process. Our experimental evaluation shows that our method can complete the scene given a single LiDAR scan as input, producing a scene with more details compared to state-of-the-art scene completion methods. We believe that our proposed diffusion process formulation can support further research in diffusion models applied to scene-scale point cloud data.
- Abstract(参考訳): コンピュータビジョン技術は、自動運転車の知覚スタックにおいて中心的な役割を果たす。
このような手法は、センサデータによって車両を取り巻く環境を知覚するために用いられる。
3D LiDARセンサーは、通常、シーンからスパース3Dポイントの雲を収集するために使用される。
しかし、人間の知覚と比較すると、こうしたシステムは希少な点の雲を考えると、シーンの見えない部分を推測するのに苦労する。
本稿では,LiDAR計測におけるギャップを予測し,より完全なシーン表現を実現することを目的とする。
画像生成モデルとしての最近の拡散モデルの有望な結果を考えると、単一の3次元LiDARスキャンからシーン完了を実現するため、画像の拡張を提案する。
従来の研究では、LiDARデータから抽出した範囲画像の拡散モデルを使用して、画像ベース拡散法を直接適用していた。
そこで,本研究では,シーンスケールで効率よく作業できるように,音の高次化とデノナイズを行う拡散過程を改良し,ポイントを直接操作することを提案する。
提案手法は,提案手法と併用して,デノナイジング過程中に予測される雑音を安定化する正規化損失を提案する。
実験により,本手法は1つのLiDARスキャンを入力としてシーンを完了できることが確認された。
提案した拡散過程の定式化は,シーンスケールのクラウドデータに適用された拡散モデルに関するさらなる研究を支援することができると考えている。
関連論文リスト
- DiffSSC: Semantic LiDAR Scan Completion using Denoising Diffusion Probabilistic Models [18.342569823885864]
3D LiDARセンサーは、車両の周囲の粗い点雲を捉えるために広く使われている。
このようなシステムは、これらの点雲の空白さと意味論の欠如により、隠蔽された領域と風景の隙間を知覚するのに苦労する。
我々は、より完全なシーン表現を目指して、生のLiDAR測定で得られたシーンにおける観測されていない幾何学と意味を共同で予測する。
論文 参考訳(メタデータ) (2024-09-26T17:39:05Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - Diffusion with Forward Models: Solving Stochastic Inverse Problems
Without Direct Supervision [76.32860119056964]
本稿では,直接観測されない信号の分布からサンプルを学習する拡散確率モデルを提案する。
コンピュータビジョンの課題3つの課題に対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-20T17:53:00Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Diffusion-based Generation, Optimization, and Planning in 3D Scenes [89.63179422011254]
本稿では,3次元シーン理解のための条件付き生成モデルであるSceneDiffuserを紹介する。
SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。
従来のモデルに比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-01-15T03:43:45Z) - DiffRF: Rendering-Guided 3D Radiance Field Diffusion [18.20324411024166]
本稿では,拡散確率モデルに基づく3次元放射場合成の新しい手法であるDiffRFを紹介する。
2次元拡散モデルとは対照的に、我々のモデルは多視点一貫した先行情報を学習し、自由視点合成と正確な形状生成を可能にする。
論文 参考訳(メタデータ) (2022-12-02T14:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。