Fugu-MT 論文翻訳(概要): DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception

論文の概要: DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception

arxiv url: http://arxiv.org/abs/2303.08333v1
Date: Wed, 15 Mar 2023 02:42:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-16 14:56:19.775074
Title: DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception
Title（参考訳）: DiffBEV:鳥類の視線知覚のための条件拡散モデル
Authors: Jiayu Zou, Zheng Zhu, Yun Ye, Xingang Wang
Abstract要約: そこで我々は,より包括的なBEV表現を生成するために拡散モデルの可能性を活用するために,DiffBEVというエンドツーエンドフレームワークを提案する。実際に,粗いサンプルを識別し,意味的特徴を洗練する拡散モデルの訓練を指導する3種類の条件を設計する。 DiffBEV が nuScenes データセット上で 25.9% mIoU を達成することを示す。
参考スコア（独自算出の注目度）: 14.968177102647783
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: BEV perception is of great importance in the field of autonomous driving, serving as the cornerstone of planning, controlling, and motion prediction. The quality of the BEV feature highly affects the performance of BEV perception. However, taking the noises in camera parameters and LiDAR scans into consideration, we usually obtain BEV representation with harmful noises. Diffusion models naturally have the ability to denoise noisy samples to the ideal data, which motivates us to utilize the diffusion model to get a better BEV representation. In this work, we propose an end-to-end framework, named DiffBEV, to exploit the potential of diffusion model to generate a more comprehensive BEV representation. To the best of our knowledge, we are the first to apply diffusion model to BEV perception. In practice, we design three types of conditions to guide the training of the diffusion model which denoises the coarse samples and refines the semantic feature in a progressive way. What's more, a cross-attention module is leveraged to fuse the context of BEV feature and the semantic content of conditional diffusion model. DiffBEV achieves a 25.9% mIoU on the nuScenes dataset, which is 6.2% higher than the best-performing existing approach. Quantitative and qualitative results on multiple benchmarks demonstrate the effectiveness of DiffBEV in BEV semantic segmentation and 3D object detection tasks. The code will be available soon.
Abstract（参考訳）: BEVの認識は、自律運転の分野で非常に重要であり、計画、制御、動き予測の基盤となっている。 BEV機能の品質は、BEV知覚の性能に大きく影響する。しかし、カメラパラメータやLiDARスキャンのノイズを考慮すると、有害ノイズを伴うBEV表現が得られるのが普通である。拡散モデルには自然にノイズのあるサンプルを理想的なデータに分解する能力があり、拡散モデルを利用してより良いBEV表現を得る動機となる。本研究では,拡散モデルの可能性を利用して,より包括的なBEV表現を生成するエンドツーエンドフレームワークDiffBEVを提案する。私たちの知る限りでは、BEVの知覚に拡散モデルを適用するのは初めてです。実際には,粗いサンプルを発音し,意味的特徴を漸進的に洗練する拡散モデルのトレーニングを指導するために,3種類の条件を設計する。さらに、クロスアテンションモジュールを使用して、BEV機能と条件拡散モデルのセマンティック内容のコンテキストを融合します。 DiffBEVは、nuScenesデータセット上で25.9%のmIoUを達成する。複数のベンチマークにおける定量および定性的な結果は、BEVセマンティックセグメンテーションと3Dオブジェクト検出タスクにおけるDiffBEVの有効性を示す。コードはもうすぐ入手できる。

関連論文リスト

BEVDiffuser: Plug-and-Play Diffusion Model for BEV Denoising with Ground-Truth Guidance [14.315057684079397]
自律走行作業において,バードアイビュー(BEV)の表現が重要な役割を担っている。センサーの限界と学習プロセスから生じる固有のノイズは、ほとんど役に立たないままです。 BEVDiffuser は,BEV特徴マップを地中構造オブジェクトレイアウトをガイダンスとして効果的に識別する,新しい拡散モデルである。
論文参考訳（メタデータ） (2025-02-27T02:11:29Z)
MambaBEV: An efficient 3D detection model with Mamba2 [4.782473183865045]
本稿では,mamba2を用いたBEV 3Dオブジェクト検出モデルを提案する。また、モデルの性能をテストするためにエンド・ツー・エンドの自動運転パラダイムを適用します。
論文参考訳（メタデータ） (2024-10-16T15:37:29Z)
BEVal: A Cross-dataset Evaluation Study of BEV Segmentation Models for Autonomous Driving [3.4113606473878386]
我々は最先端のBEVセグメンテーションモデルの包括的クロスデータセット評価を行う。本稿では,カメラやLiDARなどの各種センサがモデルの一般化能力に与える影響について検討する。
論文参考訳（メタデータ） (2024-08-29T07:49:31Z)
FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文参考訳（メタデータ） (2024-07-14T09:39:44Z)
BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space [57.68134574076005]
BEVWorldは,マルチモーダルセンサの入力を,環境モデリングのための統一的でコンパクトなBird's Eye View潜在空間にトークン化する手法である。実験は、自律走行タスクにおけるBEVWorldの有効性を示し、将来のシーンを生成する能力を示し、知覚や動き予測のような下流タスクに恩恵を与える。
論文参考訳（メタデータ） (2024-07-08T07:26:08Z)
Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文参考訳（メタデータ） (2024-05-27T17:59:39Z)
DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。 DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文参考訳（メタデータ） (2024-01-13T04:21:24Z)
Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文参考訳（メタデータ） (2023-12-18T09:52:14Z)
QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。 QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文参考訳（メタデータ） (2023-08-21T07:06:49Z)
Flexible Amortized Variational Inference in qBOLD MRI [56.4324135502282]
データから酸素抽出率(OEF)と脱酸素血液量(DBV)をより明瞭に決定する。既存の推論手法では、DBVを過大評価しながら非常にノイズの多い、過小評価されたEFマップが得られる傾向にある。本研究は, OEFとDBVの可算分布を推定できる確率論的機械学習手法について述べる。
論文参考訳（メタデータ） (2022-03-11T10:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。