Fugu-MT 論文翻訳(概要): Diffusion-Based Particle-DETR for BEV Perception

論文の概要: Diffusion-Based Particle-DETR for BEV Perception

arxiv url: http://arxiv.org/abs/2312.11578v1
Date: Mon, 18 Dec 2023 09:52:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 18:22:08.287862
Title: Diffusion-Based Particle-DETR for BEV Perception
Title（参考訳）: BEV知覚のための拡散型粒子DETR
Authors: Asen Nachkov, Martin Danelljan, Danda Pani Paudel, Luc Van Gool
Abstract要約: Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
参考スコア（独自算出の注目度）: 94.88305708174796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Bird-Eye-View (BEV) is one of the most widely-used scene representations for visual perception in Autonomous Vehicles (AVs) due to its well suited compatibility to downstream tasks. For the enhanced safety of AVs, modeling perception uncertainty in BEV is crucial. Recent diffusion-based methods offer a promising approach to uncertainty modeling for visual perception but fail to effectively detect small objects in the large coverage of the BEV. Such degradation of performance can be attributed primarily to the specific network architectures and the matching strategy used when training. Here, we address this problem by combining the diffusion paradigm with current state-of-the-art 3D object detectors in BEV. We analyze the unique challenges of this approach, which do not exist with deterministic detectors, and present a simple technique based on object query interpolation that allows the model to learn positional dependencies even in the presence of the diffusion noise. Based on this, we present a diffusion-based DETR model for object detection that bears similarities to particle methods. Abundant experimentation on the NuScenes dataset shows equal or better performance for our generative approach, compared to deterministic state-of-the-art methods. Our source code will be made publicly available.
Abstract（参考訳）: バードアイビュー(Bird-Eye-View、BEV)は、自動運転車(AV)における視覚的知覚のための最も広く使われているシーンの1つである。 AVの安全性を高めるためには、BEVにおける認識の不確かさのモデル化が不可欠である。近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの大部分をカバーする小さな物体を効果的に検出できない。このようなパフォーマンスの低下は、主に特定のネットワークアーキテクチャとトレーニングで使用されるマッチング戦略に起因する。本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。決定論的検出器では存在しないこのアプローチのユニークな課題を分析し,拡散ノイズの存在下でもモデルが位置依存性を学習できるオブジェクトクエリ補間に基づく単純な手法を提案する。これに基づいて,粒子法と類似性を有する物体検出のための拡散型DETRモデルを提案する。 NuScenesデータセットの冗長な実験は、決定論的手法と比較して、我々の生成的アプローチに等しく、より優れた性能を示す。私たちのソースコードは公開されます。

関連論文リスト

Refine-and-Contrast: Adaptive Instance-Aware BEV Representations for Multi-UAV Collaborative Object Detection [15.494912154439367]
複数UAVコラボレーティブ3D検出は、空中プラットフォームからの多視点観測を融合させることにより、正確で堅牢な認識を可能にする。本稿では,適応型インスタンス認識型BEV表現を洗練コントラストパラダイムにより学習する新しいフレームワークであるAdaBEVを紹介する。
論文参考訳（メタデータ） (2025-08-18T07:37:14Z)
Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting [25.43661979008945]
鳥眼視(Bird's-eye view, BEV)は、複数のビューイメージを融合させる統一表現を提供するため、注目されている。近年の最先端モデルでは、BEV知覚をクエリ学習として定式化するプロジェクションベースの手法を用いて、明示的な深さ推定を回避している。本稿では,非投射型手法を再検討し,深度不確実性モデリングにより拡張する,新しい不確実性を考慮したBEV認識フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-02T17:59:38Z)
Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文参考訳（メタデータ） (2024-11-23T19:10:32Z)
Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文参考訳（メタデータ） (2024-08-23T01:53:36Z)
FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文参考訳（メタデータ） (2024-07-14T09:39:44Z)
Instance-aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文参考訳（メタデータ） (2023-12-13T09:24:42Z)
Diffusion-based 3D Object Detection with Random Boxes [58.43022365393569]
既存のアンカーベースの3D検出方法は、アンカーの実証的な設定に依存しており、アルゴリズムはエレガンスを欠いている。提案するDiff3Detは,検出ボックスを生成対象として考慮し,拡散モデルから3次元オブジェクト検出のための提案生成へ移行する。推論段階では、モデルは予測結果にランダムボックスのセットを徐々に洗練する。
論文参考訳（メタデータ） (2023-09-05T08:49:53Z)
Unsupervised Video Anomaly Detection with Diffusion Models Conditioned on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文参考訳（メタデータ） (2023-07-04T07:36:48Z)
CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文参考訳（メタデータ） (2023-05-29T07:49:44Z)
DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception [14.968177102647783]
そこで我々は,より包括的なBEV表現を生成するために拡散モデルの可能性を活用するために,DiffBEVというエンドツーエンドフレームワークを提案する。実際に,粗いサンプルを識別し,意味的特徴を洗練する拡散モデルの訓練を指導する3種類の条件を設計する。 DiffBEV が nuScenes データセット上で 25.9% mIoU を達成することを示す。
論文参考訳（メタデータ） (2023-03-15T02:42:48Z)
Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文参考訳（メタデータ） (2021-04-22T12:47:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。