論文の概要: Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2303.11926v1
- Date: Tue, 21 Mar 2023 15:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:30:24.594130
- Title: Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection
- Title(参考訳): マルチビュー3次元物体検出のための物体中心時間モデルの検討
- Authors: Shihao Wang, Yingfei Liu, Tiancai Wang, Ying Li, Xiangyu Zhang
- Abstract要約: マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。
StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
- 参考スコア(独自算出の注目度): 20.161887223481994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a long-sequence modeling framework, named
StreamPETR, for multi-view 3D object detection. Built upon the sparse query
design in the PETR series, we systematically develop an object-centric temporal
mechanism. The model is performed in an online manner and the long-term
historical information is propagated through object queries frame by frame.
Besides, we introduce a motion-aware layer normalization to model the movement
of the objects. StreamPETR achieves significant performance improvements only
with negligible computation cost, compared to the single-frame baseline. On the
standard nuScenes benchmark, it reaches a new state-of-the-art performance
(63.6% NDS). The lightweight version realizes 45.0% mAP and 31.7 FPS,
outperforming the state-of-the-art method (SOLOFusion) by 2.3% mAP and 1.8x
faster FPS. Code will be available at
https://github.com/exiawsh/StreamPETR.git.
- Abstract(参考訳): 本稿では,マルチビュー3Dオブジェクト検出のための時系列モデリングフレームワークStreamPETRを提案する。
PETRシリーズのスパースクエリ設計に基づいて,オブジェクト中心の時間的メカニズムを体系的に開発する。
モデルはオンライン方式で実行され、長期の履歴情報は、オブジェクトクエリフレームをフレーム単位で伝播する。
また,物体の動きをモデル化するモーションアウェア層正規化も導入する。
streampetrは、シングルフレームのベースラインと比較して、計算コストが無視できるだけの性能改善を実現している。
標準のnuScenesベンチマークでは、新しい最先端のパフォーマンス(63.6% NDS)に達する。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
コードはhttps://github.com/exiawsh/StreamPETR.gitで入手できる。
関連論文リスト
- TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection [40.267769862404684]
時間的LiDAR点雲を用いた3次元物体検出のための特徴融合手法を提案する。
私たちの主な動機は、3Dオブジェクト検出器の初期段階にオブジェクト認識の潜伏埋め込みを融合させることです。
論文 参考訳(メタデータ) (2023-09-28T21:58:25Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - Video based Object 6D Pose Estimation using Transformers [6.951360830202521]
VideoPoseは、ビデオ内の6Dオブジェクトポスを推定するために、以前のフレームに付随するエンドツーエンドのアテンションベースのモデリングアーキテクチャである。
我々のアーキテクチャは、長距離依存関係を効率的にキャプチャし、推論することができ、ビデオシーケンスを反復的に精錬することができる。
提案手法は最先端の Transformer 手法と同等であり,CNN ベースの手法と比較して大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-24T18:45:53Z) - CRT-6D: Fast 6D Object Pose Estimation with Cascaded Refinement
Transformers [51.142988196855484]
本稿では,CRT-6D(Cascaded Refinement Transformers)と呼ぶ新しい手法を提案する。
一般的に使用される高密度中間表現を,Os(Object Keypoint Features)と呼ばれる機能ピラミッドからサンプリングされた,各要素がオブジェクトキーポイントに対応するスパースな機能セットに置き換える。
一つのモデル上で最大21個のオブジェクトをサポートしながら,最も近いリアルタイム状態よりも2倍高速な推論を実現する。
論文 参考訳(メタデータ) (2022-10-21T04:06:52Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z) - BundleTrack: 6D Pose Tracking for Novel Objects without Instance or
Category-Level 3D Models [1.14219428942199]
この研究は、オブジェクトの6Dポーズトラッキングのための一般的なフレームワークである BundleTrackを提案する。
フレームワークの効率的な実装は、フレームワーク全体に対してリアルタイムな10Hzのパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-08-01T18:14:46Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - 3D Object Detection and Tracking Based on Streaming Data [9.085584050311178]
我々は、オンに基づいて3次元物体検出のためのデュアルウェイネットワークを構築し、時間情報で導かれる動きに基づくアルゴリズムにより、非キーフレームに予測を伝達する。
我々のフレームワークはフレーム・バイ・フレーム・パラダイムよりも大幅に改善されているだけでなく、KITTI Object Tracking Benchmarkで競合する結果が得られることが証明されている。
論文 参考訳(メタデータ) (2020-09-14T03:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。