論文の概要: P2P: Part-to-Part Motion Cues Guide a Strong Tracking Framework for LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2407.05238v2
- Date: Tue, 9 Jul 2024 02:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 11:26:26.778326
- Title: P2P: Part-to-Part Motion Cues Guide a Strong Tracking Framework for LiDAR Point Clouds
- Title(参考訳): P2P: パート・ツー・パートのモーションキューがLiDARポイントクラウドの強力な追跡フレームワークをガイド
- Authors: Jiahao Nie, Fei Xie, Sifan Zhou, Xueyi Zhou, Dong-Kyu Chae, Zhiwei He,
- Abstract要約: 外観マッチングに基づく3次元物体追跡法は,LiDAR点雲による外観情報の不十分さに長年悩まされてきた。
連続点雲に対するパート・ツー・パートのモーション・モデリングを提案し,textbfP2Pと呼ばれる新しいトラッキング・フレームワークを提案する。
本稿では,P2P-pointとP2P-voxelモデルについて述べる。
- 参考スコア(独自算出の注目度): 11.30412146387686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D single object tracking (SOT) methods based on appearance matching has long suffered from insufficient appearance information incurred by incomplete, textureless and semantically deficient LiDAR point clouds. While motion paradigm exploits motion cues instead of appearance matching for tracking, it incurs complex multi-stage processing and segmentation module. In this paper, we first provide in-depth explorations on motion paradigm, which proves that (\textbf{i}) it is feasible to directly infer target relative motion from point clouds across consecutive frames; (\textbf{ii}) fine-grained information comparison between consecutive point clouds facilitates target motion modeling. We thereby propose to perform part-to-part motion modeling for consecutive point clouds and introduce a novel tracking framework, termed \textbf{P2P}. The novel framework fuses each corresponding part information between consecutive point clouds, effectively exploring detailed information changes and thus modeling accurate target-related motion cues. Following this framework, we present P2P-point and P2P-voxel models, incorporating implicit and explicit part-to-part motion modeling by point- and voxel-based representation, respectively. Without bells and whistles, P2P-voxel sets a new state-of-the-art performance ($\sim$\textbf{89\%}, \textbf{72\%} and \textbf{63\%} precision on KITTI, NuScenes and Waymo Open Dataset, respectively). Moreover, under the same point-based representation, P2P-point outperforms the previous motion tracker M$^2$Track by \textbf{3.3\%} and \textbf{6.7\%} on the KITTI and NuScenes, while running at a considerably high speed of \textbf{107 Fps} on a single RTX3090 GPU. The source code and pre-trained models are available at \url{https://github.com/haooozi/P2P}.
- Abstract(参考訳): 外観マッチングに基づく3Dシングルオブジェクト追跡(SOT)手法は,不完全でテクスチャレスで意味的に不足したLiDAR点雲によって生じる外観情報の不足に長年悩まされてきた。
モーションパラダイムは、トラッキングのための外観マッチングの代わりにモーションキューを利用するが、複雑なマルチステージ処理とセグメンテーションモジュールを発生させる。
本稿では,まず,運動パラダイムの詳細な探索を行い,(\textbf{i}) 連続するフレーム間の点雲から目標の相対運動を直接推定することが可能であること,(\textbf{ii}) 連続する点雲間の詳細な情報比較が目標運動モデリングを容易にすることを証明した。
そこで我々は,連続点雲に対するパート・ツー・パート・モーション・モデリングを行い,新しい追跡フレームワーク「textbf{P2P}」を提案する。
このフレームワークは、各部位情報を連続点雲間で融合し、詳細な情報変化を効果的に探索し、精度の高い目標関連動作キューをモデル化する。
本稿では,P2P-pointとP2P-voxelモデルについて述べる。
ベルとホイッスルなしでは、P2P-voxelは、KITTI、NuScenes、Waymo Open Datasetでそれぞれ新しい最先端のパフォーマンス(\sim$\textbf{89\%}、 \textbf{72\%}、 \textbf{63\%})を設定する。
さらに、P2Pポイントは、KITTIとNuScenesで、前のモーショントラッカーM$^2$Trackと \textbf{3.3\%} と \textbf{6.7\%} で、RTX3090 GPU上で、かなり高速で実行される。
ソースコードと事前訓練されたモデルは、 \url{https://github.com/haooozi/P2P}で入手できる。
関連論文リスト
- Degrees of Freedom Matter: Inferring Dynamics from Point Trajectories [28.701879490459675]
ニューラルネットワークによってパラメータ化された暗黙の運動場を学習し、同一領域内の新規点の動きを予測することを目的とする。
我々は、SIRENが提供する固有正則化を活用し、入力層を変更して時間的に滑らかな運動場を生成する。
実験では, 未知点軌道の予測におけるモデルの性能評価と, 変形を伴う時間メッシュアライメントへの応用について検討した。
論文 参考訳(メタデータ) (2024-06-05T21:02:10Z) - EasyTrack: Efficient and Compact One-stream 3D Point Clouds Tracker [35.74677036815288]
そこで本稿では,TextbfEasyTrackと呼ばれる,簡潔でコンパクトな1ストリームトランスフォーマ3D SOTパラダイムを提案する。
3Dポイントクラウド追跡機能付き事前学習モジュールを開発し、3Dポイントクラウド追跡表現の学習にマスク付きオートエンコーディングを利用する。
密集した鳥眼ビュー(BEV)特徴空間における目標位置ネットワークを構築し、目標分類と回帰を行う。
論文 参考訳(メタデータ) (2024-04-09T02:47:52Z) - Motion-to-Matching: A Mixed Paradigm for 3D Single Object Tracking [27.805298263103495]
本稿では,モーションモデリングと特徴マッチングを組み合わせたMTM-Trackerを提案する。
第1段階では、連続した履歴ボックスを先行動作として利用し、ターゲットの粗い位置を特定するエンコーダ・デコーダ構造を提案する。
第2段階では、連続する点雲から動きを認識する特徴を抽出し、それらをマッチングして目標運動を洗練させる特徴相互作用モジュールを導入する。
論文 参考訳(メタデータ) (2023-08-23T02:40:51Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - STTracker: Spatio-Temporal Tracker for 3D Single Object Tracking [11.901758708579642]
ポイントクラウドによる3Dオブジェクトのトラッキングは、3Dコンピュータビジョンにおいて重要なタスクである。
以前の方法は、通常、最後の2つのフレームを入力し、前のフレームのテンプレートポイントクラウドと現在のフレームの検索エリアポイントクラウドを使用する。
論文 参考訳(メタデータ) (2023-06-30T07:25:11Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Variational Relational Point Completion Network for Robust 3D
Classification [59.80993960827833]
可変点雲補完法は、局所的な詳細を欠くため、大域的な形状の骨格を生成する傾向がある。
本稿では2つの魅力的な特性を持つ変分フレームワークであるポイントコンプリートネットワーク(VRCNet)を提案する。
VRCNetは、現実世界のポイントクラウドスキャンにおいて、非常に一般化性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-04-18T17:03:20Z) - EPCL: Frozen CLIP Transformer is An Efficient Point Cloud Encoder [60.52613206271329]
本稿では,冷凍CLIP変換器を用いて高品質のクラウドモデルをトレーニングするための textbfEfficient textbfPoint textbfCloud textbfLearning (EPCL) を提案する。
我々のEPCLは、2D-3Dデータをペア化せずに画像の特徴と点雲の特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。
論文 参考訳(メタデータ) (2022-12-08T06:27:11Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。