Fugu-MT 論文翻訳(概要): ODTrack: Online Dense Temporal Token Learning for Visual Tracking

論文の概要: ODTrack: Online Dense Temporal Token Learning for Visual Tracking

arxiv url: http://arxiv.org/abs/2401.01686v1
Date: Wed, 3 Jan 2024 11:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-04 14:25:29.923340
Title: ODTrack: Online Dense Temporal Token Learning for Visual Tracking
Title（参考訳）: ODTrack: ビジュアルトラッキングのためのオンラインDense Temporal Token Learning
Authors: Yaozong Zheng, Bineng Zhong, Qihua Liang, Zhiyi Mo, Shengping Zhang, Xianxian Li
Abstract要約: ODTrackはビデオレベルのトラッキングパイプラインで、オンライントークンの伝搬方法でビデオフレームのコンテキスト関係を密に関連付ける。リアルタイムの速度で実行しながら、7つのベンチマークで新しい itSOTA パフォーマンスを実現する。
参考スコア（独自算出の注目度）: 22.628561792412686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online contextual reasoning and association across consecutive video frames are critical to perceive instances in visual tracking. However, most current top-performing trackers persistently lean on sparse temporal relationships between reference and search frames via an offline mode. Consequently, they can only interact independently within each image-pair and establish limited temporal correlations. To alleviate the above problem, we propose a simple, flexible and effective video-level tracking pipeline, named \textbf{ODTrack}, which densely associates the contextual relationships of video frames in an online token propagation manner. ODTrack receives video frames of arbitrary length to capture the spatio-temporal trajectory relationships of an instance, and compresses the discrimination features (localization information) of a target into a token sequence to achieve frame-to-frame association. This new solution brings the following benefits: 1) the purified token sequences can serve as prompts for the inference in the next video frame, whereby past information is leveraged to guide future inference; 2) the complex online update strategies are effectively avoided by the iterative propagation of token sequences, and thus we can achieve more efficient model representation and computation. ODTrack achieves a new \textit{SOTA} performance on seven benchmarks, while running at real-time speed. Code and models are available at \url{https://github.com/GXNU-ZhongLab/ODTrack}.
Abstract（参考訳）: 連続するビデオフレーム間のオンラインコンテキスト推論と関連性は、視覚的トラッキングのインスタンスを知覚するために重要である。しかし、現在のほとんどのトップパフォーマンストラッカーは、オフラインモードを介して参照フレームと検索フレームの間の疎時間関係に永続的に依存している。その結果、各画像対内で独立に相互作用し、時間的相関が限定される。上記の問題を解決するために,ビデオフレームのコンテキスト関係をオンライントークン伝搬方式で密結合する,シンプルで柔軟で効果的なビデオレベルのトラッキングパイプライン \textbf{odtrack} を提案する。 odtrackは任意の長さのビデオフレームを受け取り、インスタンスの時空間的軌道関係をキャプチャし、ターゲットの識別特徴(局所化情報)をトークンシーケンスに圧縮してフレーム対フレーム関連付けを実現する。この新しいソリューションは以下の利点をもたらす。 1) 精製されたトークンシーケンスは、次のビデオフレームにおける推論のプロンプトとして機能し、過去の情報を活用して将来の推論を導出することができる。 2) 複雑なオンライン更新戦略はトークン列の反復伝播によって効果的に回避され, より効率的なモデル表現と計算が可能となる。 ODTrackは、リアルタイムで実行しながら、7つのベンチマークで新しい‘textit{SOTA}パフォーマンスを達成する。コードとモデルは \url{https://github.com/gxnu-zhonglab/odtrack} で利用可能である。

関連論文リスト

Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。 DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文参考訳（メタデータ） (2025-03-18T06:49:51Z)
Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文参考訳（メタデータ） (2025-03-09T06:16:49Z)
Track-On: Transformer-based Online Point Tracking with Memory [34.744546679670734]
オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理する。推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
論文参考訳（メタデータ） (2025-01-30T17:04:11Z)
Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文参考訳（メタデータ） (2024-12-20T09:10:17Z)
ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文参考訳（メタデータ） (2024-02-27T07:34:08Z)
Explicit Visual Prompts for Visual Object Tracking [23.561539973210248]
textbfEVPTrackは、連続するフレーム間の明示的な視覚的プロンプトを利用するビジュアルトラッキングフレームワークである。我々は,明示的情報とマルチスケール情報の両方を活用することで,リアルタイムに競争性能を実現することができることを示す。
論文参考訳（メタデータ） (2024-01-06T07:12:07Z)
DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文参考訳（メタデータ） (2023-06-06T05:24:15Z)
Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文参考訳（メタデータ） (2022-12-20T10:33:17Z)
Real-time Online Multi-Object Tracking in Compressed Domain [66.40326768209]
近年,Multi-Object Tracking (MOT) 手法が望まれるトラッキング性能を実現している。隣接するフレームが極めて関連性が高く冗長であるという事実に着想を得て、フレームをキーフレームと非キーフレームに分割する。私たちのトラッカーは、同等のトラッカー性能を維持しながら、約6倍高速です。
論文参考訳（メタデータ） (2022-04-05T09:47:24Z)
Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。 OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文参考訳（メタデータ） (2022-03-22T18:37:11Z)
End-to-end video instance segmentation via spatial-temporal graph neural networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-07T05:38:08Z)
Modelling Neighbor Relation in Joint Space-Time Graph for Video Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文参考訳（メタデータ） (2021-09-28T05:40:01Z)
Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文参考訳（メタデータ） (2021-08-09T05:56:47Z)
Continuity-Discrimination Convolutional Neural Network for Visual Object Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文参考訳（メタデータ） (2021-04-18T06:35:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。