論文の概要: SOTFormer: A Minimal Transformer for Unified Object Tracking and Trajectory Prediction
- arxiv url: http://arxiv.org/abs/2511.11824v1
- Date: Fri, 14 Nov 2025 19:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.327101
- Title: SOTFormer: A Minimal Transformer for Unified Object Tracking and Trajectory Prediction
- Title(参考訳): SOTFormer: 物体追跡と軌道予測のための最小変換器
- Authors: Zhongping Dong, Pengyang Yu, Shuangjian Li, Liming Chen, Mohand Tahar Kechadi,
- Abstract要約: 最小限の定メモリ時間変換器である textbfSOTFormer を導入する。
オブジェクト検出、トラッキング、短期水平軌道予測を単一のエンドツーエンドフレームワークに統合する。
Mini-LaSOT (20%)ベンチマークでは、SOTFormerは76.3 AUCと53.7 FPS(AMP、4.3GB VRAM)を達成した。
- 参考スコア(独自算出の注目度): 3.08657139423562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate single-object tracking and short-term motion forecasting remain challenging under occlusion, scale variation, and temporal drift, which disrupt the temporal coherence required for real-time perception. We introduce \textbf{SOTFormer}, a minimal constant-memory temporal transformer that unifies object detection, tracking, and short-horizon trajectory prediction within a single end-to-end framework. Unlike prior models with recurrent or stacked temporal encoders, SOTFormer achieves stable identity propagation through a ground-truth-primed memory and a burn-in anchor loss that explicitly stabilizes initialization. A single lightweight temporal-attention layer refines embeddings across frames, enabling real-time inference with fixed GPU memory. On the Mini-LaSOT (20%) benchmark, SOTFormer attains 76.3 AUC and 53.7 FPS (AMP, 4.3 GB VRAM), outperforming transformer baselines such as TrackFormer and MOTRv2 under fast motion, scale change, and occlusion.
- Abstract(参考訳): 正確な単一物体追跡と短期運動予測は、リアルタイム知覚に必要な時間的コヒーレンスを阻害する閉塞、スケール変動、時間的ドリフトの下では依然として困難である。
我々は,オブジェクト検出,追跡,短水平軌道予測を単一エンドツーエンドフレームワーク内で統一する最小の定メモリ時間変換器である \textbf{SOTFormer} を紹介した。
SOTFormerは、リカレントまたはスタックされた時間エンコーダを持つ以前のモデルとは異なり、グラウントトラスプライドメモリと、初期化を明示的に安定化するバーンインアンカーロスを介して安定したアイデンティティ伝搬を実現する。
単一の軽量な時間アテンション層は、フレーム間の埋め込みを洗練し、固定されたGPUメモリでリアルタイムの推論を可能にする。
Mini-LaSOT (20%) ベンチマークでは、SOTFormer は 76.3 AUC と 53.7 FPS (AMP, 4.3 GB VRAM) を達成し、高速動作、スケール変更、オクルージョンで、TrackFormer や MOTRv2 などのトランスフォーマーベースラインを上回った。
関連論文リスト
- Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [17.626181371045575]
我々は、SpikeFETと呼ばれる、最初の完全なSpyking Frame-Event Trackingフレームワークを提案する。
このネットワークは、進化的局所特徴抽出とトランスフォーマーに基づくグローバルモデリングをスパイキングパラダイム内で相乗的に統合する。
提案手法は既存の手法よりも優れたトラッキング精度を実現し,消費電力を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-27T07:53:50Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Spatio-Temporal Bi-directional Cross-frame Memory for Distractor Filtering Point Cloud Single Object Tracking [2.487142846438629]
LIDARポイント内の1つのオブジェクトトラッキングは、コンピュータビジョンにおける重要なタスクである。
既存の手法は、ネットワーク経由の外観マッチングのみに依存するか、連続したフレームからの情報を利用するが、重大な課題に遭遇する。
我々は、これらの課題を緩和するために、STMD-Trackerという、革新的なクロスフレームバイテンポラルモーショントラッカーを設計する。
論文 参考訳(メタデータ) (2024-03-23T13:15:44Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - ProContEXT: Exploring Progressive Context Transformer for Tracking [20.35886416084831]
既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
私たちはプログレッシブコンテキストでフレームワークを改訂しました。
Transformer Tracker (ProContEXT) は空間的・時間的文脈を利用して物体の動きの軌跡を予測する。
論文 参考訳(メタデータ) (2022-10-27T14:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。