論文の概要: Correlation Pyramid Network for 3D Single Object Tracking
- arxiv url: http://arxiv.org/abs/2305.09195v1
- Date: Tue, 16 May 2023 06:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 16:14:26.115382
- Title: Correlation Pyramid Network for 3D Single Object Tracking
- Title(参考訳): 3次元物体追跡のための相関ピラミッドネットワーク
- Authors: Mengmeng Wang, Teli Ma, Xingxing Zuo, Jiajun Lv, Yong Liu
- Abstract要約: 本稿では,統合エンコーダとモーションファクターデコーダを備えた新しい相関ピラミッドネットワーク(CorpNet)を提案する。
CorpNetは、リアルタイムに実行しながら最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 16.694809791177263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D LiDAR-based single object tracking (SOT) has gained increasing attention
as it plays a crucial role in 3D applications such as autonomous driving. The
central problem is how to learn a target-aware representation from the sparse
and incomplete point clouds. In this paper, we propose a novel Correlation
Pyramid Network (CorpNet) with a unified encoder and a motion-factorized
decoder. Specifically, the encoder introduces multi-level self attentions and
cross attentions in its main branch to enrich the template and search region
features and realize their fusion and interaction, respectively. Additionally,
considering the sparsity characteristics of the point clouds, we design a
lateral correlation pyramid structure for the encoder to keep as many points as
possible by integrating hierarchical correlated features. The output features
of the search region from the encoder can be directly fed into the decoder for
predicting target locations without any extra matcher. Moreover, in the decoder
of CorpNet, we design a motion-factorized head to explicitly learn the
different movement patterns of the up axis and the x-y plane together.
Extensive experiments on two commonly-used datasets show our CorpNet achieves
state-of-the-art results while running in real-time.
- Abstract(参考訳): 3D LiDARベースのシングルオブジェクトトラッキング(SOT)は、自動運転などの3Dアプリケーションにおいて重要な役割を果たすため、注目を集めている。
中心的な問題は、スパースと不完全な点雲からターゲット認識表現を学習する方法である。
本稿では,統一エンコーダとモーションファクターデコーダを備えた新しい相関ピラミッドネットワーク(CorpNet)を提案する。
具体的には、マルチレベル自己注意とクロスアテンションをメインブランチに導入し、テンプレートと検索領域の機能を強化し、融合と相互作用を実現する。
また,点雲のスパーシティ特性を考慮し,階層的相関特徴の統合により,エンコーダの水平相関ピラミッド構造を可能な限り多くの点を保持するように設計する。
エンコーダからの検索領域の出力特性をデコーダに直接供給することで、余分なマッチングを行わずにターゲット位置を予測することができる。
さらに, corpnet のデコーダでは, 上軸と x-y 平面の異なる動きパターンを明示的に学習するために, 運動分解型ヘッドを設計する。
一般的に使われている2つのデータセットに対する大規模な実験は、私たちのCorpNetがリアルタイムに実行しながら最先端の結果を達成することを示している。
関連論文リスト
- FASTC: A Fast Attentional Framework for Semantic Traversability Classification Using Point Cloud [7.711666704468952]
点雲を用いたトラバーサビリティ評価の問題に対処する。
本稿では,垂直に配置された点雲から特徴を捉えるために PointNet を利用した柱状特徴抽出モジュールを提案する。
次に、LIDAR点雲の密度問題に適切に対応できる多フレーム情報を融合する新しい時間的アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-06-24T12:01:55Z) - CT3D++: Improving 3D Object Detection with Keypoint-induced Channel-wise Transformer [42.68740105997167]
手作りの最小限の設計で3Dオブジェクト検出を行うフレームワークを2つ導入する。
まず,本提案では,各提案において,生点ベースの埋め込み,標準トランスフォーマーエンコーダ,チャンネルワイドデコーダを順次実行するCT3Dを提案する。
次に、幾何学的および意味論的融合に基づく埋め込みを組み込んだCT3D++と呼ばれる拡張ネットワークを提案し、より価値があり包括的な提案認識情報を取り出す。
論文 参考訳(メタデータ) (2024-06-12T12:40:28Z) - Multi-Correlation Siamese Transformer Network with Dense Connection for
3D Single Object Tracking [14.47355191520578]
ポイントクラウドベースの3Dオブジェクトトラッキングは、自動運転において重要なタスクである。
スパースLIDARポイントクラウドデータでテンプレートと検索ブランチの相関を効果的に学習することは依然として困難である。
本稿では,複数のステージを持つマルチ相関シームス変圧器ネットワークを提案し,各ステージの最後に特徴相関を行う。
論文 参考訳(メタデータ) (2023-12-18T09:33:49Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - HEDNet: A Hierarchical Encoder-Decoder Network for 3D Object Detection
in Point Clouds [19.1921315424192]
ポイントクラウドにおける3Dオブジェクト検出は、自律運転システムにとって重要である。
3Dオブジェクト検出における主な課題は、3Dシーン内の点のスパース分布に起因する。
本稿では3次元オブジェクト検出のための階層型エンコーダデコーダネットワークであるHEDNetを提案する。
論文 参考訳(メタデータ) (2023-10-31T07:32:08Z) - CXTrack: Improving 3D Point Cloud Tracking with Contextual Information [59.55870742072618]
3Dオブジェクトトラッキングは、自律運転など、多くのアプリケーションにおいて重要な役割を果たす。
CXTrackは3次元オブジェクト追跡のためのトランスフォーマーベースのネットワークである。
CXTrackは29FPSで動作しながら最先端のトラッキング性能を実現する。
論文 参考訳(メタデータ) (2022-11-12T11:29:01Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - 3D Siamese Transformer Network for Single Object Tracking on Point
Clouds [22.48888264770609]
シームズネットワークに基づくトラッカーは、テンプレートの点特徴と検索領域との間の相互相関学習として、3Dオブジェクト追跡を定式化する。
テンプレートと検索領域間の堅牢な相互相関を学習するために,Transformer を用いて 3D Siamese Transformer ネットワークを構築した。
本手法は,3次元物体追跡タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-25T09:08:30Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z) - Self-Supervised Point Cloud Representation Learning with Occlusion
Auto-Encoder [63.77257588569852]
本稿では,3D Occlusion Auto-Encoder(3D-OAE)を提案する。
私たちのキーとなるアイデアは、入力ポイントクラウドのローカルパッチをランダムに排除し、隠されたパッチを復元することで監督を確立することです。
従来の手法とは対照的に、我々の3D-OAEは大量のパッチを除去し、少数の可視パッチでしか予測できない。
論文 参考訳(メタデータ) (2022-03-26T14:06:29Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。