論文の概要: Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking
- arxiv url: http://arxiv.org/abs/2407.03240v1
- Date: Wed, 3 Jul 2024 16:10:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:27:21.143363
- Title: Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking
- Title(参考訳): Cyclic Refiner:多視点3D検出・追跡のためのオブジェクト認識時間表現学習
- Authors: Mingzhe Guo, Zhipeng Zhang, Liping Jing, Yuan He, Ke Wang, Heng Fan,
- Abstract要約: マルチビュー3次元検出・追跡タスクのための統合オブジェクト認識時間学習フレームワークを提案する。
提案モデルでは,異なる設計のベースラインよりも一貫した性能向上を実現している。
- 参考スコア(独自算出の注目度): 37.186306646752975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a unified object-aware temporal learning framework for multi-view 3D detection and tracking tasks. Having observed that the efficacy of the temporal fusion strategy in recent multi-view perception methods may be weakened by distractors and background clutters in historical frames, we propose a cyclic learning mechanism to improve the robustness of multi-view representation learning. The essence is constructing a backward bridge to propagate information from model predictions (e.g., object locations and sizes) to image and BEV features, which forms a circle with regular inference. After backward refinement, the responses of target-irrelevant regions in historical frames would be suppressed, decreasing the risk of polluting future frames and improving the object awareness ability of temporal fusion. We further tailor an object-aware association strategy for tracking based on the cyclic learning model. The cyclic learning model not only provides refined features, but also delivers finer clues (e.g., scale level) for tracklet association. The proposed cycle learning method and association module together contribute a novel and unified multi-task framework. Experiments on nuScenes show that the proposed model achieves consistent performance gains over baselines of different designs (i.e., dense query-based BEVFormer, sparse query-based SparseBEV and LSS-based BEVDet4D) on both detection and tracking evaluation.
- Abstract(参考訳): マルチビュー3次元検出・追跡タスクのための統合オブジェクト認識時間学習フレームワークを提案する。
近年の多視点認識手法における時間的融合戦略の有効性は,過去のフレームにおける乱れや背景の散らばりによって弱まる可能性があることを観察し,多視点表現学習の堅牢性を改善するための循環学習機構を提案する。
本質的には、モデル予測(例えば、オブジェクトの位置とサイズ)から画像およびBEV特徴へ情報を伝達する後方ブリッジを構築し、通常の推論で円を形成する。
後方修正後、過去のフレームにおける対象非関連領域の応答が抑制され、将来のフレームを汚染するリスクが減少し、時間融合の物体認識能力が向上する。
さらに、循環学習モデルに基づくトラッキングのためのオブジェクト認識アソシエイト戦略を調整する。
循環学習モデルは、洗練された特徴を提供するだけでなく、トラックレットアソシエーションのためのより細かい手がかり(例えば、スケールレベル)を提供する。
提案したサイクル学習手法とアソシエイトモジュールは、新しく統一されたマルチタスクフレームワークに寄与する。
nuScenes の実験により,提案モデルでは,検出および追跡評価の両方において,異なる設計(高密度クエリベースの BEVFormer,スパースクエリベースの SparseBEV と LSSベースの BEVDet4D )のベースラインよりも一貫した性能向上が得られた。
関連論文リスト
- LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection [40.267769862404684]
時間的LiDAR点雲を用いた3次元物体検出のための特徴融合手法を提案する。
私たちの主な動機は、3Dオブジェクト検出器の初期段階にオブジェクト認識の潜伏埋め込みを融合させることです。
論文 参考訳(メタデータ) (2023-09-28T21:58:25Z) - Shape Anchor Guided Holistic Indoor Scene Understanding [9.463220988312218]
本研究では, 室内環境の堅牢な理解のための形状アンカー案内学習戦略(AncLearn)を提案する。
AncLearnは、インスタンス表面を動的に(i)アンミックスノイズとターゲット関連の機能に適合するアンカーを生成し、検出段階で信頼性の高い提案を提供する。
我々は,高品質なセマンティックシーンモデルを生成するために,AncLearnを再構成検出学習システム(AncRec)に組み込む。
論文 参考訳(メタデータ) (2023-09-20T08:30:20Z) - Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-12T11:48:32Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - A Dual-Cycled Cross-View Transformer Network for Unified Road Layout
Estimation and 3D Object Detection in the Bird's-Eye-View [4.251500966181852]
本稿では,トランスアーキテクチャとCycleGAN学習フレームワークにヒントを得た,道路レイアウト推定と3次元物体検出のための統一モデルを提案する。
道路配置推定におけるマルチクラス学習の効果を検討するために,幅広い学習シナリオを構築した。
その結果,道路配置推定と3次元物体検出の両タスクにおいて,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2022-09-19T08:43:38Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。