論文の概要: Predict to Detect: Prediction-guided 3D Object Detection using
Sequential Images
- arxiv url: http://arxiv.org/abs/2306.08528v1
- Date: Wed, 14 Jun 2023 14:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:49:07.002809
- Title: Predict to Detect: Prediction-guided 3D Object Detection using
Sequential Images
- Title(参考訳): 予測:連続画像を用いた予測誘導3次元物体検出
- Authors: Sanmin Kim, Youngseok Kim, In-Jae Lee, Dongsuk Kum
- Abstract要約: 本稿では,予測スキームを検出フレームワークに統合した新しい3Dオブジェクト検出モデルP2Dを提案する。
P2Dは、過去のフレームのみを用いて現在のフレーム内のオブジェクト情報を予測し、時間的動きの特徴を学習する。
次に,予測対象情報に基づいて,バードアイビュー(Bird's-Eye-View,BEV)特徴を注意深く活用する時間的特徴集約手法を提案する。
- 参考スコア(独自算出の注目度): 7.7832624151476555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent camera-based 3D object detection methods have introduced sequential
frames to improve the detection performance hoping that multiple frames would
mitigate the large depth estimation error. Despite improved detection
performance, prior works rely on naive fusion methods (e.g., concatenation) or
are limited to static scenes (e.g., temporal stereo), neglecting the importance
of the motion cue of objects. These approaches do not fully exploit the
potential of sequential images and show limited performance improvements. To
address this limitation, we propose a novel 3D object detection model, P2D
(Predict to Detect), that integrates a prediction scheme into a detection
framework to explicitly extract and leverage motion features. P2D predicts
object information in the current frame using solely past frames to learn
temporal motion features. We then introduce a novel temporal feature
aggregation method that attentively exploits Bird's-Eye-View (BEV) features
based on predicted object information, resulting in accurate 3D object
detection. Experimental results demonstrate that P2D improves mAP and NDS by
3.0% and 3.7% compared to the sequential image-based baseline, illustrating
that incorporating a prediction scheme can significantly improve detection
accuracy.
- Abstract(参考訳): 最近のカメラベースの3Dオブジェクト検出手法では、複数のフレームが大きな深さ推定誤差を軽減することを期待して、シーケンシャルフレームを導入している。
検出性能の改善にもかかわらず、先行の作業は単純融合法(例えば結合)や静的なシーン(例えば時間ステレオ)に限られており、物体の動きキューの重要性を無視している。
これらのアプローチはシーケンシャルなイメージの可能性を完全に活用せず、限られた性能改善を示す。
この制限に対処するために,予測スキームを検出フレームワークに統合し,運動特徴を明示的に抽出し活用する新しい3Dオブジェクト検出モデルP2D(Predict to Detect)を提案する。
P2Dは、過去のフレームのみを用いて現在のフレーム内のオブジェクト情報を予測し、時間運動の特徴を学習する。
次に,予測対象情報に基づいてバードアイビュー(BEV)特徴を注意深く活用し,正確な3次元物体検出を実現する新しい時間的特徴集約手法を提案する。
実験結果から,P2Dは連続画像ベースラインに比べてmAPとNDSを3.0%,3.7%改善し,予測スキームを組み込むことで検出精度が大幅に向上することが示された。
関連論文リスト
- Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object
Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。
KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文 参考訳(メタデータ) (2022-01-12T07:11:18Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor
Distance Voting [12.611269919468999]
本稿では、隣接する予測を組み込んで、高度に変形した擬似LiDAR点雲からの物体検出を改善する方法を提案する。
鳥の視線検出の成績は,特に難易度検出において,最先端の視線検出よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2021-07-06T09:18:33Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。