論文の概要: Exploring Temporally-Aware Features for Point Tracking
- arxiv url: http://arxiv.org/abs/2501.12218v1
- Date: Tue, 21 Jan 2025 15:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:14.207774
- Title: Exploring Temporally-Aware Features for Point Tracking
- Title(参考訳): 点追跡のための時間的特徴の探索
- Authors: Inès Hyeonsu Kim, Seokju Cho, Jiahui Huang, Jung Yi, Joon-Young Lee, Seungryong Kim,
- Abstract要約: Chronoは、時間的認識を組み込んだポイントトラッキング用に特別に設計された機能バックボーンである。
Chronoは、TAP-Vid-DAVISとTAP-Vid-Kineticsデータセットの洗練されたフリー設定で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 58.63091479730935
- License:
- Abstract: Point tracking in videos is a fundamental task with applications in robotics, video editing, and more. While many vision tasks benefit from pre-trained feature backbones to improve generalizability, point tracking has primarily relied on simpler backbones trained from scratch on synthetic data, which may limit robustness in real-world scenarios. Additionally, point tracking requires temporal awareness to ensure coherence across frames, but using temporally-aware features is still underexplored. Most current methods often employ a two-stage process: an initial coarse prediction followed by a refinement stage to inject temporal information and correct errors from the coarse stage. These approach, however, is computationally expensive and potentially redundant if the feature backbone itself captures sufficient temporal information. In this work, we introduce Chrono, a feature backbone specifically designed for point tracking with built-in temporal awareness. Leveraging pre-trained representations from self-supervised learner DINOv2 and enhanced with a temporal adapter, Chrono effectively captures long-term temporal context, enabling precise prediction even without the refinement stage. Experimental results demonstrate that Chrono achieves state-of-the-art performance in a refiner-free setting on the TAP-Vid-DAVIS and TAP-Vid-Kinetics datasets, among common feature backbones used in point tracking as well as DINOv2, with exceptional efficiency. Project page: https://cvlab-kaist.github.io/Chrono/
- Abstract(参考訳): ビデオにおけるポイントトラッキングは、ロボット工学、ビデオ編集などにおけるアプリケーションの基本的なタスクである。
多くの視覚タスクは、一般化性を改善するために事前訓練された機能バックボーンの恩恵を受けるが、ポイントトラッキングは主に合成データでスクラッチからトレーニングされた単純なバックボーンに依存しており、現実のシナリオでは堅牢性を制限する可能性がある。
さらに、点追跡はフレーム間のコヒーレンスを確保するために時間的認識を必要とするが、時間的認識機能の使用はまだ探索されていない。
初期の粗い予測に続き、時間的情報を注入し、粗い段階から誤りを正すための改良段階が続く。
しかし、これらのアプローチは、機能バックボーン自体が十分な時間情報をキャプチャしている場合、計算コストが高く、潜在的に冗長である。
本研究では,時間的認識を組み込んだポイントトラッキングに特化した機能バックボーンであるChronoを紹介する。
自己教師型学習者のDINOv2から事前学習した表現を活用し、時間的適応で拡張することにより、Chronoは長期的時間的文脈を効果的に捉え、改良段階なしで正確な予測を可能にする。
実験結果から,TAP-Vid-DAVISとTAP-Vid-Kineticsのデータセットにおいて,点追跡やDINOv2で使用される一般的な特徴バックボーンのうち,非精細化環境での最先端性能を極めて高い効率で達成できた。
プロジェクトページ:https://cvlab-kaist.github.io/Chrono/
関連論文リスト
- ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - Distillation Enhanced Time Series Forecasting Network with Momentum Contrastive Learning [7.4106801792345705]
長周期時系列予測のための革新的蒸留強化フレームワークであるDE-TSMCLを提案する。
具体的には、タイムスタンプをマスクするかどうかを適応的に学習する学習可能なデータ拡張機構を設計する。
そこで本研究では,時系列のサンプル間および時間内相関を探索するために,モーメントを更新したコントラスト学習タスクを提案する。
複数のタスクからモデル損失を発生させることで、下流予測タスクの効果的な表現を学習することができる。
論文 参考訳(メタデータ) (2024-01-31T12:52:10Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。
OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:59:59Z) - Towards Real-World Visual Tracking with Temporal Contexts [64.7981374129495]
時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。
これに基づいて、現実世界の視覚的トラッキング、すなわちTCTrack++のためのより強力なバージョンを提案する。
特徴抽出のために,空間的特徴を高めるために注意に基づく時間適応的畳み込みを提案する。
類似性マップの改良のために,時間的知識を効率的に符号化する適応型時間的変換器を導入する。
論文 参考訳(メタデータ) (2023-08-20T17:59:40Z) - 3D-FCT: Simultaneous 3D Object Detection and Tracking Using Feature
Correlation [0.0]
3D-FCTは、時間情報を利用して3Dオブジェクトの検出と追跡の関連タスクを同時に実行するシームズネットワークアーキテクチャである。
提案手法は,最先端手法よりも5.57%mAPの改善が期待できるKITTI追跡データセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-06T06:36:29Z) - Interpretable Deep Feature Propagation for Early Action Recognition [39.966828592322315]
本研究では,空間的特徴空間における行動パターンの時間的変化を解明し,行動予測に対処する。
我々は、空間的レイアウトを維持しながら、生データからの抽象化を可能にする中間層ConvNet機能で作業する。
我々はKalmanフィルタを用いてエラーのビルドと予測開始時刻の統一に対処する。
論文 参考訳(メタデータ) (2021-07-11T19:40:19Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。