論文の概要: NOOUGAT: Towards Unified Online and Offline Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2509.02111v1
- Date: Tue, 02 Sep 2025 09:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.974856
- Title: NOOUGAT: Towards Unified Online and Offline Multi-Object Tracking
- Title(参考訳): NOOUGAT:オンラインとオフラインのマルチオブジェクト追跡の統合を目指す
- Authors: Benjamin Missaoui, Orcun Cetintas, Guillem Brasó, Tim Meinhardt, Laura Leal-Taixé,
- Abstract要約: NOOUGATは、任意の時間的水平線で操作する最初のトラッカーである。
DanceTrackでは+2.3、SportsMOTでは+9.2、MOT20では+5.0、テキストオフラインモードでは+5.0に改善されている。
- 参考スコア(独自算出の注目度): 31.46043749958963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The long-standing division between \textit{online} and \textit{offline} Multi-Object Tracking (MOT) has led to fragmented solutions that fail to address the flexible temporal requirements of real-world deployment scenarios. Current \textit{online} trackers rely on frame-by-frame hand-crafted association strategies and struggle with long-term occlusions, whereas \textit{offline} approaches can cover larger time gaps, but still rely on heuristic stitching for arbitrarily long sequences. In this paper, we introduce NOOUGAT, the first tracker designed to operate with arbitrary temporal horizons. NOOUGAT leverages a unified Graph Neural Network (GNN) framework that processes non-overlapping subclips, and fuses them through a novel Autoregressive Long-term Tracking (ALT) layer. The subclip size controls the trade-off between latency and temporal context, enabling a wide range of deployment scenarios, from frame-by-frame to batch processing. NOOUGAT achieves state-of-the-art performance across both tracking regimes, improving \textit{online} AssA by +2.3 on DanceTrack, +9.2 on SportsMOT, and +5.0 on MOT20, with even greater gains in \textit{offline} mode.
- Abstract(参考訳): 長期にわたる \textit{online} と \textit{offline} の分割により、マルチオブジェクト追跡(MOT)は、現実のデプロイメントシナリオの柔軟な時間的要求に対処できない、断片化されたソリューションへと導いてきた。
現在の \textit{online} トラッカーはフレーム単位で手作りのアソシエーション戦略に依存し、長期のオクルージョンと競合するが、 \textit{offline} アプローチはより大きな時間ギャップをカバーできるが、それでも任意に長いシーケンスをヒューリスティックな縫合に頼っている。
本稿では,任意の時間的地平線で動作するように設計された最初のトラッカーであるNOOUGATを紹介する。
NOOUGATは、重複しないサブクリップを処理する統一グラフニューラルネットワーク(GNN)フレームワークを活用し、新しいAutoregressive Long-term Tracking(ALT)レイヤを通じてそれらを融合する。
サブクリップサイズは、レイテンシと時間的コンテキストの間のトレードオフを制御し、フレーム単位からバッチ処理まで、幅広いデプロイメントシナリオを可能にします。
NOOUGATは両方のトラッキングレシスタンスで最先端のパフォーマンスを実現し、DanceTrackでは+2.3、SportsMOTでは+9.2、MOT20では+5.0で、textit{offline}モードではさらに向上した。
関連論文リスト
- On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。
本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文 参考訳(メタデータ) (2025-06-11T01:25:06Z) - CAMELTrack: Context-Aware Multi-cue ExpLoitation for Online Multi-Object Tracking [68.24998698508344]
CAMELはコンテキスト対応型マルチキューExpLoitationのための新しいアソシエイトモジュールである。
エンド・ツー・エンドの検知・バイ・トラック方式とは異なり,本手法は軽量かつ高速にトレーニングが可能であり,外部のオフ・ザ・シェルフモデルを活用することができる。
提案するオンライントラッキングパイプラインであるCAMELTrackは,複数のトラッキングベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-02T13:26:23Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - Explicit Visual Prompts for Visual Object Tracking [23.561539973210248]
textbfEVPTrackは、連続するフレーム間の明示的な視覚的プロンプトを利用するビジュアルトラッキングフレームワークである。
我々は,明示的情報とマルチスケール情報の両方を活用することで,リアルタイムに競争性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-01-06T07:12:07Z) - ODTrack: Online Dense Temporal Token Learning for Visual Tracking [22.628561792412686]
ODTrackはビデオレベルのトラッキングパイプラインで、オンライントークンの伝搬方法でビデオフレームのコンテキスト関係を密に関連付ける。
リアルタイムの速度で実行しながら、7つのベンチマークで新しい itSOTA パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-01-03T11:44:09Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding
Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。
本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。
各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-03-22T10:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。