論文の概要: OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2404.15014v1
- Date: Tue, 23 Apr 2024 13:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:51:55.447274
- Title: OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving
- Title(参考訳): OccGen: 自律運転のための生成型マルチモーダル3D動作予測
- Authors: Guoqing Wang, Zhongdao Wang, Pin Tang, Jilai Zheng, Xiangxuan Ren, Bailan Feng, Chao Ma,
- Abstract要約: OccGenは3Dセマンティック占有予測のタスクのためのシンプルだが強力な生成知覚モデルである。
OccGenは'noise-to-occupancy'生成パラダイムを採用し、占有マップを徐々に推論し精錬する。
この生成パイプラインの重要な洞察は、拡散分解過程が高密度の3D占有マップの粗い微細化をモデル化できるということである。
- 参考スコア(独自算出の注目度): 15.331332063879342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing solutions for 3D semantic occupancy prediction typically treat the task as a one-shot 3D voxel-wise segmentation perception problem. These discriminative methods focus on learning the mapping between the inputs and occupancy map in a single step, lacking the ability to gradually refine the occupancy map and the reasonable scene imaginative capacity to complete the local regions somewhere. In this paper, we introduce OccGen, a simple yet powerful generative perception model for the task of 3D semantic occupancy prediction. OccGen adopts a ''noise-to-occupancy'' generative paradigm, progressively inferring and refining the occupancy map by predicting and eliminating noise originating from a random Gaussian distribution. OccGen consists of two main components: a conditional encoder that is capable of processing multi-modal inputs, and a progressive refinement decoder that applies diffusion denoising using the multi-modal features as conditions. A key insight of this generative pipeline is that the diffusion denoising process is naturally able to model the coarse-to-fine refinement of the dense 3D occupancy map, therefore producing more detailed predictions. Extensive experiments on several occupancy benchmarks demonstrate the effectiveness of the proposed method compared to the state-of-the-art methods. For instance, OccGen relatively enhances the mIoU by 9.5%, 6.3%, and 13.3% on nuScenes-Occupancy dataset under the muli-modal, LiDAR-only, and camera-only settings, respectively. Moreover, as a generative perception model, OccGen exhibits desirable properties that discriminative models cannot achieve, such as providing uncertainty estimates alongside its multiple-step predictions.
- Abstract(参考訳): 既存の3Dセマンティック占有予測のソリューションは、通常、タスクをワンショットの3Dボクセルワイドセグメンテーション知覚問題として扱う。
これらの識別方法は、入力と占有マップのマッピングを一つのステップで学習することに集中しており、占有マップを徐々に洗練する能力と、地域をどこかで完成させる合理的なシーン想像能力が欠如している。
本稿では,OccGenについて紹介する。OccGenは3次元セマンティック占有予測のタスクのための,シンプルながら強力な生成知覚モデルである。
OccGenは'noise-to-occupancy'生成パラダイムを採用し、ランダムなガウス分布から発するノイズを予測・排除することで、占領マップを徐々に推論・精錬する。
OccGenは、マルチモーダル入力を処理できる条件エンコーダと、マルチモーダル特徴を条件として拡散復調を適用するプログレッシブリファインメントデコーダの2つの主要コンポーネントで構成されている。
この生成パイプラインの重要な洞察は、拡散分解過程が高密度な3次元占有マップの粗い微細化をモデル化できるため、より詳細な予測が可能であることである。
いくつかの占有率ベンチマークにおける実験により, 提案手法の有効性を, 最先端手法と比較して実証した。
例えば、OccGenは、muli-modal、LiDAR-only、カメラのみの設定下でのnuScenes-Occupancyデータセットにおいて、mIoUを9.5%、6.3%、13.3%向上させる。
さらに、生成的知覚モデルとして、OccGenは、識別モデルが達成できない望ましい特性を示す。
関連論文リスト
- OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy
Prediction [5.069242662340813]
マルチセンサフュージョンに基づく3次元占有予測は、信頼性の高い自律運転システムに不可欠である。
従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。
我々は,奥行き推定が不要なマルチモーダル融合法であるOccFusionと,画像特徴の密接な統合のための対応する点クラウドサンプリングアルゴリズムを紹介する。
論文 参考訳(メタデータ) (2024-03-08T14:07:37Z) - D3AD: Dynamic Denoising Diffusion Probabilistic Model for Anomaly
Detection [2.61072980439312]
拡散モデルは、名目データ分布を捕捉し、再構成を通して異常を識別することで、異常検出に有用な応用を見出した。
それらの利点にもかかわらず、彼らは様々なスケールの異常、特に欠落した部品全体のような大きな異常をローカライズするのに苦労している。
本稿では,従来の暗黙的条件付け手法であるメングらを拡張し,拡散モデルの能力を高める新しい枠組みを提案する。
2022 を3 つの重要な方法で行う。第一に、初期異常予測によって導かれる前処理における可変ノイズ発生ステップを可能にする動的ステップサイズ計算を組み込む。第二に、雑音を伴わずにのみスケールされた入力をデノナイズすることが、従来のデノよりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-09T09:57:38Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。
提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。
推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文 参考訳(メタデータ) (2023-09-05T08:49:53Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - DDP: Diffusion Model for Dense Visual Prediction [71.55770562024782]
本研究では,条件付き拡散パイプラインに基づく高密度視覚予測のための,シンプルで効率的かつ強力なフレームワークを提案する。
DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。
DDPは、従来の単段階識別法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示す。
論文 参考訳(メタデータ) (2023-03-30T17:26:50Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。