論文の概要: RoPETR: Improving Temporal Camera-Only 3D Detection by Integrating Enhanced Rotary Position Embedding
- arxiv url: http://arxiv.org/abs/2504.12643v1
- Date: Thu, 17 Apr 2025 05:05:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:00.010353
- Title: RoPETR: Improving Temporal Camera-Only 3D Detection by Integrating Enhanced Rotary Position Embedding
- Title(参考訳): RoPETR:強化ロータリー位置埋め込みの統合によるテンポラルカメラ専用3次元検出の改善
- Authors: Hang Ji, Tao Ni, Xufeng Huang, Tao Luo, Xin Zhan, Junbo Chen,
- Abstract要約: 本稿では,速度推定の高速化を目的としたStreamPETRフレームワークの改良について紹介する。
改良されたアプローチでは、VT-Lバックボーンを用いて70.86%の最先端NDSを実現し、カメラのみの3Dオブジェクト検出のための新しいベンチマークを設定した。
- 参考スコア(独自算出の注目度): 7.142677515668237
- License:
- Abstract: This technical report introduces a targeted improvement to the StreamPETR framework, specifically aimed at enhancing velocity estimation, a critical factor influencing the overall NuScenes Detection Score. While StreamPETR exhibits strong 3D bounding box detection performance as reflected by its high mean Average Precision our analysis identified velocity estimation as a substantial bottleneck when evaluated on the NuScenes dataset. To overcome this limitation, we propose a customized positional embedding strategy tailored to enhance temporal modeling capabilities. Experimental evaluations conducted on the NuScenes test set demonstrate that our improved approach achieves a state-of-the-art NDS of 70.86% using the ViT-L backbone, setting a new benchmark for camera-only 3D object detection.
- Abstract(参考訳): 本技術報告では,NuScenes Detection Scoreに影響を及ぼす重要な要因であるベロシティ推定を向上することを目的としたStreamPETRフレームワークの改良を目標としている。
StreamPETRは高い平均精度で反映された3次元境界ボックス検出性能を示す一方で,NuScenesデータセットで評価すると,速度推定が重大なボトルネックとして認識される。
この制限を克服するために、時間的モデリング能力を高めるために、カスタマイズされた位置埋め込み戦略を提案する。
NuScenesテストセットで行った実験結果から,VT-Lバックボーンを用いた最先端NDSの70.86%を実現し,カメラのみの3Dオブジェクト検出のための新しいベンチマークを設定した。
関連論文リスト
- RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Predict to Detect: Prediction-guided 3D Object Detection using
Sequential Images [15.51093009875854]
本稿では,予測スキームを検出フレームワークに統合した新しい3Dオブジェクト検出モデルP2Dを提案する。
P2Dは、過去のフレームのみを用いて現在のフレーム内のオブジェクト情報を予測し、時間的動きの特徴を学習する。
次に,予測対象情報に基づいて,バードアイビュー(Bird's-Eye-View,BEV)特徴を注意深く活用する時間的特徴集約手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T14:22:56Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - ROFT: Real-Time Optical Flow-Aided 6D Object Pose and Velocity Tracking [7.617467911329272]
RGB-D画像ストリームからの6次元オブジェクトポーズと速度追跡のためのカルマンフィルタ手法であるROFTを導入する。
リアルタイム光フローを活用することで、ROFTは低フレームレートの畳み込みニューラルネットワークの遅延出力をインスタンスセグメンテーションと6Dオブジェクトのポーズ推定に同期させる。
その結果,本手法は6次元オブジェクトのポーズトラッキングと6次元オブジェクトの速度トラッキングを併用しながら,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-06T07:30:00Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - Active Depth Estimation: Stability Analysis and its Applications [18.582561853987034]
本稿では,Structure-from-Motion(SfM)方式の理論的性質について述べる。
インクリメンタルという言葉は、画像フレームの時系列上のシーンの3次元構造を推定することを意味する。
リアプノフ理論を用いて推定子の収束を解析することにより、画像平面内の3次元点の射影に対する制約を緩和する。
論文 参考訳(メタデータ) (2020-03-16T12:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。