論文の概要: SMTrack: End-to-End Trained Spiking Neural Networks for Multi-Object Tracking in RGB Videos
- arxiv url: http://arxiv.org/abs/2508.14607v1
- Date: Wed, 20 Aug 2025 10:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.430238
- Title: SMTrack: End-to-End Trained Spiking Neural Networks for Multi-Object Tracking in RGB Videos
- Title(参考訳): SMTrack:RGBビデオにおける複数物体追跡のための終端から終端までトレーニングされたスパイクニューラルネットワーク
- Authors: Pengzhi Zhong, Xinzhe Wang, Dan Zeng, Qihua Zhou, Feixiang He, Shuiwang Li,
- Abstract要約: 脳にインスパイアされたスパイキングニューラルネットワーク(SNN)は、低消費電力計算において大きな可能性を秘めている。
視覚タスクにおけるそれらの応用は、画像分類、オブジェクト検出、イベントベースのトラッキングに限られている。
SMTrack - 標準RGBビデオにおけるエンドツーエンドのマルチオブジェクト追跡のための、最初の直接訓練されたディープSNNフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.673924616309698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Brain-inspired Spiking Neural Networks (SNNs) exhibit significant potential for low-power computation, yet their application in visual tasks remains largely confined to image classification, object detection, and event-based tracking. In contrast, real-world vision systems still widely use conventional RGB video streams, where the potential of directly-trained SNNs for complex temporal tasks such as multi-object tracking (MOT) remains underexplored. To address this challenge, we propose SMTrack-the first directly trained deep SNN framework for end-to-end multi-object tracking on standard RGB videos. SMTrack introduces an adaptive and scale-aware Normalized Wasserstein Distance loss (Asa-NWDLoss) to improve detection and localization performance under varying object scales and densities. Specifically, the method computes the average object size within each training batch and dynamically adjusts the normalization factor, thereby enhancing sensitivity to small objects. For the association stage, we incorporate the TrackTrack identity module to maintain robust and consistent object trajectories. Extensive evaluations on BEE24, MOT17, MOT20, and DanceTrack show that SMTrack achieves performance on par with leading ANN-based MOT methods, advancing robust and accurate SNN-based tracking in complex scenarios.
- Abstract(参考訳): 脳にインスパイアされたスパイキングニューラルネットワーク(SNN)は、低消費電力計算において大きな可能性を秘めているが、視覚タスクへの応用は、画像分類、オブジェクト検出、イベントベースのトラッキングに限られている。
対照的に、現実世界の視覚システムは従来のRGBビデオストリームを広く利用しており、MOT(Multi-object tracking)のような複雑な時間的タスクに対して直接訓練されたSNNのポテンシャルは未定である。
この課題に対処するために、SMTrackは、標準RGBビデオ上でのエンドツーエンドのマルチオブジェクトトラッキングのための、最初の直接訓練されたディープSNNフレームワークである。
SMTrackは適応的かつスケール対応な正規化ワッサースタイン距離損失(Asa-NWDLoss)を導入し、様々なオブジェクトスケールと密度での検出およびローカライゼーション性能を改善する。
具体的には、トレーニングバッチ毎に平均オブジェクトサイズを計算し、正規化係数を動的に調整することにより、小さなオブジェクトに対する感度を高める。
関連ステージでは、ロバストで一貫したオブジェクトトラジェクトリを維持するために、Trackアイデンティティモジュールを組み込む。
BEE24、MOT17、MOT20、DanceTrackの大規模な評価は、SMTrackが主要なANNベースのMOTメソッドと同等のパフォーマンスを達成し、複雑なシナリオにおける堅牢で正確なSNNベースのトラッキングを向上していることを示している。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - RLM-Tracking: Online Multi-Pedestrian Tracking Supported by Relative
Location Mapping [5.9669075749248774]
マルチオブジェクトトラッキングの問題は、公安、輸送、自動運転車、ロボティクス、人工知能を含む他の領域で広く利用されている、基本的なコンピュータビジョン研究の焦点である。
本稿では、オブジェクト textbfRelative Location Mapping (RLM) モデルと textbfTarget Region Density (TRD) モデルを含む、上記の問題に対する新しいマルチオブジェクトトラッカーを設計する。
新しいトラッカーは、オブジェクト間の位置関係の違いに敏感である。
物体の密度に応じてリアルタイムで異なる領域に低スコア検出フレームを導入することができる
論文 参考訳(メタデータ) (2022-10-19T11:37:14Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - TDIOT: Target-driven Inference for Deep Video Object Tracking [0.2457872341625575]
本研究では,事前訓練したMask R-CNNディープオブジェクト検出器をベースラインとして採用する。
本研究では,Mask R-CNNのFPN-ResNet101バックボーン上に新しい推論アーキテクチャを導入し,検出と追跡を共同で行う。
提案する単一オブジェクトトラッカであるtdiotは、データアソシエーションに外観類似性に基づく時間マッチングを適用する。
論文 参考訳(メタデータ) (2021-03-19T20:45:06Z) - TRAT: Tracking by Attention Using Spatio-Temporal Features [14.520067060603209]
空間的特徴と時間的特徴の両方を利用する2ストリームディープニューラルネットワークトラッカーを提案する。
我々のアーキテクチャはATOMトラッカー上で開発され、 (i) 外観特徴を捉える2D-CNNネットワークと (ii) 動作特徴を捉える3D-CNNネットワークの2つのバックボーンを含んでいる。
論文 参考訳(メタデータ) (2020-11-18T20:11:12Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。