論文の概要: MambaTrack3D: A State Space Model Framework for LiDAR-Based Object Tracking under High Temporal Variation
- arxiv url: http://arxiv.org/abs/2511.15077v1
- Date: Wed, 19 Nov 2025 03:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.617672
- Title: MambaTrack3D: A State Space Model Framework for LiDAR-Based Object Tracking under High Temporal Variation
- Title(参考訳): MambaTrack3D:高時間変動下におけるLiDARに基づく物体追跡のための状態空間モデルフレームワーク
- Authors: Shengjing Tian, Yinan Han, Xiantong Zhao, Xuehu Liu, Qi Lang,
- Abstract要約: MambaTrack3Dは、状態空間モデルMamba上に構築された新しいHTV指向のトラッキングフレームワークである。
MambaTrack3Dは、HTV指向トラッカーと通常のシナリオトラッカーの両方を一貫して上回っている。
- 参考スコア(独自算出の注目度): 10.644346216742353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic outdoor environments with high temporal variation (HTV) pose significant challenges for 3D single object tracking in LiDAR point clouds. Existing memory-based trackers often suffer from quadratic computational complexity, temporal redundancy, and insufficient exploitation of geometric priors. To address these issues, we propose MambaTrack3D, a novel HTV-oriented tracking framework built upon the state space model Mamba. Specifically, we design a Mamba-based Inter-frame Propagation (MIP) module that replaces conventional single-frame feature extraction with efficient inter-frame propagation, achieving near-linear complexity while explicitly modeling spatial relations across historical frames. Furthermore, a Grouped Feature Enhancement Module (GFEM) is introduced to separate foreground and background semantics at the channel level, thereby mitigating temporal redundancy in the memory bank. Extensive experiments on KITTI-HTV and nuScenes-HTV benchmarks demonstrate that MambaTrack3D consistently outperforms both HTV-oriented and normal-scenario trackers, achieving improvements of up to 6.5 success and 9.5 precision over HVTrack under moderate temporal gaps. On the standard KITTI dataset, MambaTrack3D remains highly competitive with state-of-the-art normal-scenario trackers, confirming its strong generalization ability. Overall, MambaTrack3D achieves a superior accuracy-efficiency trade-off, delivering robust performance across both specialized HTV and conventional tracking scenarios.
- Abstract(参考訳): 高時間変動(HTV)を持つ動的屋外環境は、LiDAR点雲における3次元単一物体追跡に重大な課題をもたらす。
既存のメモリベースのトラッカーは、2次計算の複雑さ、時間的冗長性、幾何学的先行性の利用不足に悩まされることが多い。
これらの問題に対処するために、状態空間モデルであるMamba上に構築された新しいHTV指向トラッキングフレームワークであるMambaTrack3Dを提案する。
具体的には,従来の単一フレーム特徴抽出を効率的なフレーム間伝搬に置き換えた,マンバベースのフレーム間伝搬(MIP)モジュールを設計する。
さらに、チャネルレベルでのフォアグラウンドとバックグラウンドのセマンティクスを分離するために、GFEM(Grouped Feature Enhancement Module)を導入し、メモリバンクにおける時間的冗長性を緩和する。
KITTI-HTV と nuScenes-HTV ベンチマークの大規模な実験により、MambaTrack3D は HTV 指向のトラッカーと通常のシナリオトラッカーの両方を一貫して上回り、時間差の緩やかな HVTrack よりも最大6.5 成功と9.5 精度の向上を実現している。
標準のKITTIデータセットでは、MambaTrack3Dは最先端の通常のシナリオトラッカーと高い競争力を維持し、その強力な一般化能力を確認している。
全体として、MambaTrack3Dは高い精度と効率のトレードオフを実現し、特殊なHTVと従来のトラッキングシナリオの両方で堅牢なパフォーマンスを実現している。
関連論文リスト
- Beyond Frame-wise Tracking: A Trajectory-based Paradigm for Efficient Point Cloud Tracking [13.622939944601393]
TrajTrackは、歴史的なバウンディングボックストラジェクトリだけで動きの連続性を暗黙的に学習することで、ベース2フレームトラッカーを強化する軽量フレームワークである。
新たな最先端性能を実現し、56FPSで走行しながら強力なベースライン上での追跡精度を4.48%向上させた。
論文 参考訳(メタデータ) (2025-09-14T21:57:16Z) - Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - What You Have is What You Track: Adaptive and Robust Multimodal Tracking [72.92244578461869]
本研究では,時間的に不完全なマルチモーダルデータを用いたトラッカー性能に関する総合的研究を行った。
我々のモデルは9つのベンチマークでSOTA性能を達成し、従来の完全性と欠落したモダリティ設定の両方で優れている。
論文 参考訳(メタデータ) (2025-07-08T11:40:21Z) - S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。
2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。
モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文 参考訳(メタデータ) (2025-04-25T04:45:35Z) - EventMamba: Enhancing Spatio-Temporal Locality with State Space Models for Event-Based Video Reconstruction [66.84997711357101]
EventMambaは、イベントベースのビデオ再構成タスク用に設計された、特殊なモデルである。
EventMambaは、Transformerベースの方法と比較して、優れた視覚的品質を提供しながら、スピードを著しく向上させる。
論文 参考訳(メタデータ) (2025-03-25T14:46:45Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しいポイントクラウドビデオ理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。