論文の概要: Exploring Temporally-Aware Features for Point Tracking
- arxiv url: http://arxiv.org/abs/2501.12218v2
- Date: Sun, 20 Apr 2025 14:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 15:07:02.149138
- Title: Exploring Temporally-Aware Features for Point Tracking
- Title(参考訳): 点追跡のための時間的特徴の探索
- Authors: Inès Hyeonsu Kim, Seokju Cho, Jiahui Huang, Jung Yi, Joon-Young Lee, Seungryong Kim,
- Abstract要約: Chronoは、時間的認識を組み込んだポイントトラッキング用に特別に設計された機能バックボーンである。
Chronoは、TAP-Vid-DAVISとTAP-Vid-Kineticsデータセットの洗練されたフリー設定で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 58.63091479730935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point tracking in videos is a fundamental task with applications in robotics, video editing, and more. While many vision tasks benefit from pre-trained feature backbones to improve generalizability, point tracking has primarily relied on simpler backbones trained from scratch on synthetic data, which may limit robustness in real-world scenarios. Additionally, point tracking requires temporal awareness to ensure coherence across frames, but using temporally-aware features is still underexplored. Most current methods often employ a two-stage process: an initial coarse prediction followed by a refinement stage to inject temporal information and correct errors from the coarse stage. These approach, however, is computationally expensive and potentially redundant if the feature backbone itself captures sufficient temporal information. In this work, we introduce Chrono, a feature backbone specifically designed for point tracking with built-in temporal awareness. Leveraging pre-trained representations from self-supervised learner DINOv2 and enhanced with a temporal adapter, Chrono effectively captures long-term temporal context, enabling precise prediction even without the refinement stage. Experimental results demonstrate that Chrono achieves state-of-the-art performance in a refiner-free setting on the TAP-Vid-DAVIS and TAP-Vid-Kinetics datasets, among common feature backbones used in point tracking as well as DINOv2, with exceptional efficiency. Project page: https://cvlab-kaist.github.io/Chrono/
- Abstract(参考訳): ビデオにおけるポイントトラッキングは、ロボット工学、ビデオ編集などにおけるアプリケーションの基本的なタスクである。
多くの視覚タスクは、一般化性を改善するために事前訓練された機能バックボーンの恩恵を受けるが、ポイントトラッキングは主に合成データでスクラッチからトレーニングされた単純なバックボーンに依存しており、現実のシナリオでは堅牢性を制限する可能性がある。
さらに、点追跡はフレーム間のコヒーレンスを確保するために時間的認識を必要とするが、時間的認識機能の使用はまだ探索されていない。
初期の粗い予測に続き、時間的情報を注入し、粗い段階から誤りを正すための改良段階が続く。
しかし、これらのアプローチは、機能バックボーン自体が十分な時間情報をキャプチャしている場合、計算コストが高く、潜在的に冗長である。
本研究では,時間的認識を組み込んだポイントトラッキングに特化した機能バックボーンであるChronoを紹介する。
自己教師型学習者のDINOv2から事前学習した表現を活用し、時間的適応で拡張することにより、Chronoは長期的時間的文脈を効果的に捉え、改良段階なしで正確な予測を可能にする。
実験結果から,TAP-Vid-DAVISとTAP-Vid-Kineticsのデータセットにおいて,点追跡やDINOv2で使用される一般的な特徴バックボーンのうち,非精細化環境での最先端性能を極めて高い効率で達成できた。
プロジェクトページ:https://cvlab-kaist.github.io/Chrono/
関連論文リスト
- Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking [41.889032460337226]
ProTrackerは、ビデオ内の任意の点を正確かつ堅牢に追跡する新しいフレームワークである。
この設計は、グローバルな意味情報と時間的に認識される低レベル特徴を効果的に組み合わせている。
実験により、ProTrackerは最適化ベースのアプローチで最先端のパフォーマンスを得ることができた。
論文 参考訳(メタデータ) (2025-01-06T18:55:52Z) - TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video [30.16638127979361]
本稿では,TAPTRv2上に構築されたTAPTRv3について述べる。
TAPTRv3は、挑戦的なデータセットの大部分でTAPTRv2をはるかに上回り、最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-11-27T17:37:22Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。
OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:59:59Z) - Towards Real-World Visual Tracking with Temporal Contexts [64.7981374129495]
時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。
これに基づいて、現実世界の視覚的トラッキング、すなわちTCTrack++のためのより強力なバージョンを提案する。
特徴抽出のために,空間的特徴を高めるために注意に基づく時間適応的畳み込みを提案する。
類似性マップの改良のために,時間的知識を効率的に符号化する適応型時間的変換器を導入する。
論文 参考訳(メタデータ) (2023-08-20T17:59:40Z) - DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks [77.84636815364905]
本稿では,種々の時間的マッチングに基づくダウンストリームタスクに対して,マスク付きオートエンコーダ(MAE)ビデオの事前学習を行う。
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - 3D-FCT: Simultaneous 3D Object Detection and Tracking Using Feature
Correlation [0.0]
3D-FCTは、時間情報を利用して3Dオブジェクトの検出と追跡の関連タスクを同時に実行するシームズネットワークアーキテクチャである。
提案手法は,最先端手法よりも5.57%mAPの改善が期待できるKITTI追跡データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-06T06:36:29Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。