論文の概要: Learning Temporal Cues by Predicting Objects Move for Multi-camera 3D Object Detection
- arxiv url: http://arxiv.org/abs/2404.01580v1
- Date: Tue, 2 Apr 2024 02:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 18:18:02.777084
- Title: Learning Temporal Cues by Predicting Objects Move for Multi-camera 3D Object Detection
- Title(参考訳): マルチカメラ3次元物体検出のための物体移動予測による時間キューの学習
- Authors: Seokha Moon, Hongbeen Park, Jungphil Kwon, Jaekoo Lee, Jinkyu Kim,
- Abstract要約: 本稿では,2分岐ネットワークからなるDAP (Detection After Prediction) モデルを提案する。
分岐(i)から現在のオブジェクトを予測する特徴は、予測知識を伝達するために分岐(ii)に融合される。
私たちのモデルはプラグイン・アンド・プレイで使用することができ、一貫したパフォーマンス向上を示します。
- 参考スコア(独自算出の注目度): 9.053936905556204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving and robotics, there is a growing interest in utilizing short-term historical data to enhance multi-camera 3D object detection, leveraging the continuous and correlated nature of input video streams. Recent work has focused on spatially aligning BEV-based features over timesteps. However, this is often limited as its gain does not scale well with long-term past observations. To address this, we advocate for supervising a model to predict objects' poses given past observations, thus explicitly guiding to learn objects' temporal cues. To this end, we propose a model called DAP (Detection After Prediction), consisting of a two-branch network: (i) a branch responsible for forecasting the current objects' poses given past observations and (ii) another branch that detects objects based on the current and past observations. The features predicting the current objects from branch (i) is fused into branch (ii) to transfer predictive knowledge. We conduct extensive experiments with the large-scale nuScenes datasets, and we observe that utilizing such predictive information significantly improves the overall detection performance. Our model can be used plug-and-play, showing consistent performance gain.
- Abstract(参考訳): 自律運転とロボット工学では、短期的な歴史的データを活用して、複数カメラの3Dオブジェクト検出を強化し、入力ビデオストリームの連続的および相関的な性質を活用することへの関心が高まっている。
最近の研究は、時間経過とともにBEVベースの特徴を空間的に整合させることに重点を置いている。
しかし、これは長期の観測ではうまくスケールしないため、しばしば制限される。
そこで本稿では,過去の観測から得られたオブジェクトのポーズを予測し,対象の時間的手がかりを明示的に学習するためのモデルを提案する。
そこで本研究では,2分岐ネットワークからなるDAP(Detection After Prediction)モデルを提案する。
一 過去の観察の事柄を予知する支店
(ii)現在の観測と過去の観測に基づいて物体を検出する別の枝。
分岐から現在のオブジェクトを予測する特徴
(i)枝に融合する
(二)予測知識の伝達
我々は,大規模なnuScenesデータセットを用いた広範囲な実験を行い,このような予測情報を利用することで全体の検出性能が大幅に向上することが観察された。
私たちのモデルはプラグイン・アンド・プレイで使用することができ、一貫したパフォーマンス向上を示します。
関連論文リスト
- Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - SeMoLi: What Moves Together Belongs Together [51.72754014130369]
動作手がかりに基づく半教師付き物体検出に挑戦する。
近年,移動物体の擬似ラベルインスタンスに対して,動きに基づくクラスタリング手法が適用可能であることが示唆された。
我々は、このアプローチを再考し、オブジェクト検出とモーションインスパイアされた擬似ラベルの両方が、データ駆動方式で取り組めることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T18:54:53Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Predict to Detect: Prediction-guided 3D Object Detection using
Sequential Images [15.51093009875854]
本稿では,予測スキームを検出フレームワークに統合した新しい3Dオブジェクト検出モデルP2Dを提案する。
P2Dは、過去のフレームのみを用いて現在のフレーム内のオブジェクト情報を予測し、時間的動きの特徴を学習する。
次に,予測対象情報に基づいて,バードアイビュー(Bird's-Eye-View,BEV)特徴を注意深く活用する時間的特徴集約手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T14:22:56Z) - Temporal Enhanced Training of Multi-view 3D Object Detector via
Historical Object Prediction [28.800204844558518]
マルチビュー3次元検出のための新しいパラダイムである履歴オブジェクト予測(HoP)を提案する。
我々は隣接するフレームからタイムスタンプt-kの擬似Bird's-Eye View(BEV)機能を生成し、この特徴を利用してタイムスタンプt-kに設定されたオブジェクトを予測する。
プラグアンドプレイのアプローチとして、HoPは最先端のBEV検出フレームワークに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2023-04-03T13:35:29Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - 3D Object Detection with a Self-supervised Lidar Scene Flow Backbone [10.341296683155973]
本稿では,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。
我々の主な貢献は、学習の流れと動きの表現を活用し、自己教師付きバックボーンと3D検出ヘッドを組み合わせることである。
KITTIとnuScenesベンチマークの実験により、提案した自己教師付き事前学習は3次元検出性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-05-02T07:53:29Z) - 3D-FCT: Simultaneous 3D Object Detection and Tracking Using Feature
Correlation [0.0]
3D-FCTは、時間情報を利用して3Dオブジェクトの検出と追跡の関連タスクを同時に実行するシームズネットワークアーキテクチャである。
提案手法は,最先端手法よりも5.57%mAPの改善が期待できるKITTI追跡データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-06T06:36:29Z) - Detecting Invisible People [58.49425715635312]
我々は,追跡ベンチマークを再利用し,目立たない物体を検出するための新しい指標を提案する。
私たちは、現在の検出および追跡システムがこのタスクで劇的に悪化することを実証します。
第2に,最先端の単眼深度推定ネットワークによる観測結果を用いて,3次元で明示的に推論する動的モデルを構築した。
論文 参考訳(メタデータ) (2020-12-15T16:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。