論文の概要: CSTrack: Enhancing RGB-X Tracking via Compact Spatiotemporal Features
- arxiv url: http://arxiv.org/abs/2505.19434v1
- Date: Mon, 26 May 2025 02:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.12333
- Title: CSTrack: Enhancing RGB-X Tracking via Compact Spatiotemporal Features
- Title(参考訳): CSTrack: コンパクトな時空間機能によるRGB-X追跡の強化
- Authors: X. Feng, D. Zhang, S. Hu, X. Li, M. Wu, J. Zhang, X. Chen, K. Huang,
- Abstract要約: CSTrackは、シンプルで効果的なトラッキングを実現するために、コンパクトな時間的特徴をモデル化することに重点を置いている。
メインストリームのRGB-Xベンチマークで新しいSOTA結果が得られる。
- 参考スコア(独自算出の注目度): 0.6143225301480709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively modeling and utilizing spatiotemporal features from RGB and other modalities (\eg, depth, thermal, and event data, denoted as X) is the core of RGB-X tracker design. Existing methods often employ two parallel branches to separately process the RGB and X input streams, requiring the model to simultaneously handle two dispersed feature spaces, which complicates both the model structure and computation process. More critically, intra-modality spatial modeling within each dispersed space incurs substantial computational overhead, limiting resources for inter-modality spatial modeling and temporal modeling. To address this, we propose a novel tracker, CSTrack, which focuses on modeling Compact Spatiotemporal features to achieve simple yet effective tracking. Specifically, we first introduce an innovative Spatial Compact Module that integrates the RGB-X dual input streams into a compact spatial feature, enabling thorough intra- and inter-modality spatial modeling. Additionally, we design an efficient Temporal Compact Module that compactly represents temporal features by constructing the refined target distribution heatmap. Extensive experiments validate the effectiveness of our compact spatiotemporal modeling method, with CSTrack achieving new SOTA results on mainstream RGB-X benchmarks. The code and models will be released at: https://github.com/XiaokunFeng/CSTrack.
- Abstract(参考訳): RGBの時空間的特徴(深度、熱、イベントデータ)を効果的にモデル化し活用することは、RGB-Xトラッカー設計の中核である。
既存の手法では、RGBとXの入力ストリームを別々に処理するために2つの並列分岐を用いることが多く、モデルの構造と計算プロセスの両方を複雑にする2つの分散特徴空間を同時に扱う必要がある。
さらに重要なのは、分散空間内のモーダリティ内空間モデリングは、モーダリティ間空間モデリングと時間的モデリングのためのリソースを制限する、かなりの計算オーバーヘッドをもたらすことである。
そこで本研究では,コンパクトな時空間的特徴をモデル化して,シンプルで効率的な追跡を実現する新しいトラッカーCSTrackを提案する。
具体的には、RGB-Xデュアル入力ストリームをコンパクトな空間特徴に統合する革新的な空間コンパクトモジュールを提案する。
さらに,時間的特徴をコンパクトに表現する効率的な時間的コンパクトモジュールを,改良された目標分布熱マップを構築して設計する。
CSTrack は RGB-X ベンチマークで新たな SOTA 結果を得た。
コードとモデルは、https://github.com/XiaokunFeng/CSTrack.comでリリースされる。
関連論文リスト
- LightFC-X: Lightweight Convolutional Tracker for RGB-X Tracking [4.963745612929956]
LightFC-Xは、マルチモーダルトラッキングのための軽量な畳み込みXトラッカーのファミリーである。
LightFC-Xは、最先端の性能とパラメータ、性能、速度の最適なバランスを達成する。
論文 参考訳(メタデータ) (2025-02-25T12:10:33Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Transformer-based RGB-T Tracking with Channel and Spatial Feature Fusion [12.982885009492389]
クロスモーダルチャネルと空間的特徴を直接融合することにより、視覚変換器の性能を向上させる方法を示す。
CSTNetは3つの公開RGB-T追跡ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-06T05:58:49Z) - WCCNet: Wavelet-integrated CNN with Crossmodal Rearranging Fusion for
Fast Multispectral Pedestrian Detection [16.43119521684829]
我々は、異なるスペクトルのリッチな特徴をより少ない計算量で差分抽出できる WCCNet という新しいフレームワークを提案する。
よく抽出された特徴に基づき、我々はクロスモーダル再配置核融合モジュール(CMRF)を精巧に設計する。
我々はKAISTおよびFLIRベンチマークの総合評価を行い、WCCNetは計算効率と競争精度で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-02T09:35:21Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。