論文の概要: ODTrack: Online Dense Temporal Token Learning for Visual Tracking
- arxiv url: http://arxiv.org/abs/2401.01686v1
- Date: Wed, 3 Jan 2024 11:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 14:25:29.923340
- Title: ODTrack: Online Dense Temporal Token Learning for Visual Tracking
- Title(参考訳): ODTrack: ビジュアルトラッキングのためのオンラインDense Temporal Token Learning
- Authors: Yaozong Zheng, Bineng Zhong, Qihua Liang, Zhiyi Mo, Shengping Zhang,
Xianxian Li
- Abstract要約: ODTrackはビデオレベルのトラッキングパイプラインで、オンライントークンの伝搬方法でビデオフレームのコンテキスト関係を密に関連付ける。
リアルタイムの速度で実行しながら、7つのベンチマークで新しい itSOTA パフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 22.628561792412686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online contextual reasoning and association across consecutive video frames
are critical to perceive instances in visual tracking. However, most current
top-performing trackers persistently lean on sparse temporal relationships
between reference and search frames via an offline mode. Consequently, they can
only interact independently within each image-pair and establish limited
temporal correlations. To alleviate the above problem, we propose a simple,
flexible and effective video-level tracking pipeline, named \textbf{ODTrack},
which densely associates the contextual relationships of video frames in an
online token propagation manner. ODTrack receives video frames of arbitrary
length to capture the spatio-temporal trajectory relationships of an instance,
and compresses the discrimination features (localization information) of a
target into a token sequence to achieve frame-to-frame association. This new
solution brings the following benefits: 1) the purified token sequences can
serve as prompts for the inference in the next video frame, whereby past
information is leveraged to guide future inference; 2) the complex online
update strategies are effectively avoided by the iterative propagation of token
sequences, and thus we can achieve more efficient model representation and
computation. ODTrack achieves a new \textit{SOTA} performance on seven
benchmarks, while running at real-time speed. Code and models are available at
\url{https://github.com/GXNU-ZhongLab/ODTrack}.
- Abstract(参考訳): 連続するビデオフレーム間のオンラインコンテキスト推論と関連性は、視覚的トラッキングのインスタンスを知覚するために重要である。
しかし、現在のほとんどのトップパフォーマンストラッカーは、オフラインモードを介して参照フレームと検索フレームの間の疎時間関係に永続的に依存している。
その結果、各画像対内で独立に相互作用し、時間的相関が限定される。
上記の問題を解決するために,ビデオフレームのコンテキスト関係をオンライントークン伝搬方式で密結合する,シンプルで柔軟で効果的なビデオレベルのトラッキングパイプライン \textbf{odtrack} を提案する。
odtrackは任意の長さのビデオフレームを受け取り、インスタンスの時空間的軌道関係をキャプチャし、ターゲットの識別特徴(局所化情報)をトークンシーケンスに圧縮してフレーム対フレーム関連付けを実現する。
この新しいソリューションは以下の利点をもたらす。
1) 精製されたトークンシーケンスは、次のビデオフレームにおける推論のプロンプトとして機能し、過去の情報を活用して将来の推論を導出することができる。
2) 複雑なオンライン更新戦略はトークン列の反復伝播によって効果的に回避され, より効率的なモデル表現と計算が可能となる。
ODTrackは、リアルタイムで実行しながら、7つのベンチマークで新しい‘textit{SOTA}パフォーマンスを達成する。
コードとモデルは \url{https://github.com/gxnu-zhonglab/odtrack} で利用可能である。
関連論文リスト
- Track-On: Transformer-based Online Point Tracking with Memory [34.744546679670734]
オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。
フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理する。
推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
論文 参考訳(メタデータ) (2025-01-30T17:04:11Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - NextStop: An Improved Tracker For Panoptic LIDAR Segmentation Data [0.6144680854063939]
4DパノプティカルLiDARセグメンテーションは、自律走行とロボット工学におけるシーン理解に不可欠である。
4D-PLSや4D-STOPのような現在の手法では、各フレームでセマンティクスとインスタンスセグメンテーションを実行するためにディープラーニングネットワークを使用している。
NextStopは、特に人や自転車のような小さなオブジェクトに対して、IDスイッチの少なさ、早期追跡開始、複雑な環境での信頼性の向上など、トラッキングパフォーマンスの向上を実証している。
論文 参考訳(メタデータ) (2025-01-08T09:08:06Z) - Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。
従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。
これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文 参考訳(メタデータ) (2024-12-20T09:10:17Z) - Explicit Visual Prompts for Visual Object Tracking [23.561539973210248]
textbfEVPTrackは、連続するフレーム間の明示的な視覚的プロンプトを利用するビジュアルトラッキングフレームワークである。
我々は,明示的情報とマルチスケール情報の両方を活用することで,リアルタイムに競争性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-01-06T07:12:07Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。