論文の概要: DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception
- arxiv url: http://arxiv.org/abs/2303.08333v1
- Date: Wed, 15 Mar 2023 02:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:56:19.775074
- Title: DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception
- Title(参考訳): DiffBEV:鳥類の視線知覚のための条件拡散モデル
- Authors: Jiayu Zou, Zheng Zhu, Yun Ye, Xingang Wang
- Abstract要約: そこで我々は,より包括的なBEV表現を生成するために拡散モデルの可能性を活用するために,DiffBEVというエンドツーエンドフレームワークを提案する。
実際に,粗いサンプルを識別し,意味的特徴を洗練する拡散モデルの訓練を指導する3種類の条件を設計する。
DiffBEV が nuScenes データセット上で 25.9% mIoU を達成することを示す。
- 参考スコア(独自算出の注目度): 14.968177102647783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BEV perception is of great importance in the field of autonomous driving,
serving as the cornerstone of planning, controlling, and motion prediction. The
quality of the BEV feature highly affects the performance of BEV perception.
However, taking the noises in camera parameters and LiDAR scans into
consideration, we usually obtain BEV representation with harmful noises.
Diffusion models naturally have the ability to denoise noisy samples to the
ideal data, which motivates us to utilize the diffusion model to get a better
BEV representation. In this work, we propose an end-to-end framework, named
DiffBEV, to exploit the potential of diffusion model to generate a more
comprehensive BEV representation. To the best of our knowledge, we are the
first to apply diffusion model to BEV perception. In practice, we design three
types of conditions to guide the training of the diffusion model which denoises
the coarse samples and refines the semantic feature in a progressive way.
What's more, a cross-attention module is leveraged to fuse the context of BEV
feature and the semantic content of conditional diffusion model. DiffBEV
achieves a 25.9% mIoU on the nuScenes dataset, which is 6.2% higher than the
best-performing existing approach. Quantitative and qualitative results on
multiple benchmarks demonstrate the effectiveness of DiffBEV in BEV semantic
segmentation and 3D object detection tasks. The code will be available soon.
- Abstract(参考訳): BEVの認識は、自律運転の分野で非常に重要であり、計画、制御、動き予測の基盤となっている。
BEV機能の品質は、BEV知覚の性能に大きく影響する。
しかし、カメラパラメータやLiDARスキャンのノイズを考慮すると、有害ノイズを伴うBEV表現が得られるのが普通である。
拡散モデルには自然にノイズのあるサンプルを理想的なデータに分解する能力があり、拡散モデルを利用してより良いBEV表現を得る動機となる。
本研究では,拡散モデルの可能性を利用して,より包括的なBEV表現を生成するエンドツーエンドフレームワークDiffBEVを提案する。
私たちの知る限りでは、BEVの知覚に拡散モデルを適用するのは初めてです。
実際には,粗いサンプルを発音し,意味的特徴を漸進的に洗練する拡散モデルのトレーニングを指導するために,3種類の条件を設計する。
さらに、クロスアテンションモジュールを使用して、BEV機能と条件拡散モデルのセマンティック内容のコンテキストを融合します。
DiffBEVは、nuScenesデータセット上で25.9%のmIoUを達成する。
複数のベンチマークにおける定量および定性的な結果は、BEVセマンティックセグメンテーションと3Dオブジェクト検出タスクにおけるDiffBEVの有効性を示す。
コードはもうすぐ入手できる。
関連論文リスト
- Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks [28.024042528077125]
Bird's-Eye-View (BEV) 3D Object Detectionは自律運転システムにとって重要なマルチビュー技術である。
本研究では,BEVスライス注意ネットワーク (BEV-SAN) という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-02T15:14:48Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [153.47511464278233]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
本稿では,BEVの認知に関する最近の研究を概観し,様々なソリューションの詳細な分析を行う。
我々は、カメラ、LiDAR、融合入力を含むBEV知覚タスクの性能を向上させるための実用的なガイドブックの完全なセットを紹介する。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - Understanding Diffusion Models: A Unified Perspective [0.0]
拡散モデルは生成モデルとして素晴らしい能力を示している。
変動的視点と得点的視点の両方にわたる拡散モデルの理解をレビューし、デミスティフィケートし、統一する。
論文 参考訳(メタデータ) (2022-08-25T09:55:25Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - Flexible Amortized Variational Inference in qBOLD MRI [56.4324135502282]
データから酸素抽出率(OEF)と脱酸素血液量(DBV)をより明瞭に決定する。
既存の推論手法では、DBVを過大評価しながら非常にノイズの多い、過小評価されたEFマップが得られる傾向にある。
本研究は, OEFとDBVの可算分布を推定できる確率論的機械学習手法について述べる。
論文 参考訳(メタデータ) (2022-03-11T10:47:16Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。