論文の概要: Correlation Pyramid Network for 3D Single Object Tracking
- arxiv url: http://arxiv.org/abs/2305.09195v1
- Date: Tue, 16 May 2023 06:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 16:14:26.115382
- Title: Correlation Pyramid Network for 3D Single Object Tracking
- Title(参考訳): 3次元物体追跡のための相関ピラミッドネットワーク
- Authors: Mengmeng Wang, Teli Ma, Xingxing Zuo, Jiajun Lv, Yong Liu
- Abstract要約: 本稿では,統合エンコーダとモーションファクターデコーダを備えた新しい相関ピラミッドネットワーク(CorpNet)を提案する。
CorpNetは、リアルタイムに実行しながら最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 16.694809791177263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D LiDAR-based single object tracking (SOT) has gained increasing attention
as it plays a crucial role in 3D applications such as autonomous driving. The
central problem is how to learn a target-aware representation from the sparse
and incomplete point clouds. In this paper, we propose a novel Correlation
Pyramid Network (CorpNet) with a unified encoder and a motion-factorized
decoder. Specifically, the encoder introduces multi-level self attentions and
cross attentions in its main branch to enrich the template and search region
features and realize their fusion and interaction, respectively. Additionally,
considering the sparsity characteristics of the point clouds, we design a
lateral correlation pyramid structure for the encoder to keep as many points as
possible by integrating hierarchical correlated features. The output features
of the search region from the encoder can be directly fed into the decoder for
predicting target locations without any extra matcher. Moreover, in the decoder
of CorpNet, we design a motion-factorized head to explicitly learn the
different movement patterns of the up axis and the x-y plane together.
Extensive experiments on two commonly-used datasets show our CorpNet achieves
state-of-the-art results while running in real-time.
- Abstract(参考訳): 3D LiDARベースのシングルオブジェクトトラッキング(SOT)は、自動運転などの3Dアプリケーションにおいて重要な役割を果たすため、注目を集めている。
中心的な問題は、スパースと不完全な点雲からターゲット認識表現を学習する方法である。
本稿では,統一エンコーダとモーションファクターデコーダを備えた新しい相関ピラミッドネットワーク(CorpNet)を提案する。
具体的には、マルチレベル自己注意とクロスアテンションをメインブランチに導入し、テンプレートと検索領域の機能を強化し、融合と相互作用を実現する。
また,点雲のスパーシティ特性を考慮し,階層的相関特徴の統合により,エンコーダの水平相関ピラミッド構造を可能な限り多くの点を保持するように設計する。
エンコーダからの検索領域の出力特性をデコーダに直接供給することで、余分なマッチングを行わずにターゲット位置を予測することができる。
さらに, corpnet のデコーダでは, 上軸と x-y 平面の異なる動きパターンを明示的に学習するために, 運動分解型ヘッドを設計する。
一般的に使われている2つのデータセットに対する大規模な実験は、私たちのCorpNetがリアルタイムに実行しながら最先端の結果を達成することを示している。
関連論文リスト
- Multi-Correlation Siamese Transformer Network with Dense Connection for
3D Single Object Tracking [14.47355191520578]
ポイントクラウドベースの3Dオブジェクトトラッキングは、自動運転において重要なタスクである。
スパースLIDARポイントクラウドデータでテンプレートと検索ブランチの相関を効果的に学習することは依然として困難である。
本稿では,複数のステージを持つマルチ相関シームス変圧器ネットワークを提案し,各ステージの最後に特徴相関を行う。
論文 参考訳(メタデータ) (2023-12-18T09:33:49Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - HEDNet: A Hierarchical Encoder-Decoder Network for 3D Object Detection
in Point Clouds [19.1921315424192]
ポイントクラウドにおける3Dオブジェクト検出は、自律運転システムにとって重要である。
3Dオブジェクト検出における主な課題は、3Dシーン内の点のスパース分布に起因する。
本稿では3次元オブジェクト検出のための階層型エンコーダデコーダネットワークであるHEDNetを提案する。
論文 参考訳(メタデータ) (2023-10-31T07:32:08Z) - CXTrack: Improving 3D Point Cloud Tracking with Contextual Information [59.55870742072618]
3Dオブジェクトトラッキングは、自律運転など、多くのアプリケーションにおいて重要な役割を果たす。
CXTrackは3次元オブジェクト追跡のためのトランスフォーマーベースのネットワークである。
CXTrackは29FPSで動作しながら最先端のトラッキング性能を実現する。
論文 参考訳(メタデータ) (2022-11-12T11:29:01Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - 3D Siamese Transformer Network for Single Object Tracking on Point
Clouds [22.48888264770609]
シームズネットワークに基づくトラッカーは、テンプレートの点特徴と検索領域との間の相互相関学習として、3Dオブジェクト追跡を定式化する。
テンプレートと検索領域間の堅牢な相互相関を学習するために,Transformer を用いて 3D Siamese Transformer ネットワークを構築した。
本手法は,3次元物体追跡タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-25T09:08:30Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Anchor-Based Spatial-Temporal Attention Convolutional Networks for
Dynamic 3D Point Cloud Sequences [20.697745449159097]
動的3次元点雲列を処理するために,アンカー型時空間注意畳み込み演算(astaconv)を提案する。
提案する畳み込み操作は、各点の周囲に複数の仮想アンカーを設定することにより、各点の周囲にレギュラーレセプティブフィールドを構築する。
提案手法は,局所領域内の構造化情報をよりよく活用し,動的3次元点雲列から空間-時間埋め込み特徴を学習する。
論文 参考訳(メタデータ) (2020-12-20T07:35:37Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。