論文の概要: Denoise to Track: Harnessing Video Diffusion Priors for Robust Correspondence
- arxiv url: http://arxiv.org/abs/2512.04619v1
- Date: Thu, 04 Dec 2025 09:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.099456
- Title: Denoise to Track: Harnessing Video Diffusion Priors for Robust Correspondence
- Title(参考訳): ロバスト対応に先駆けてビデオ拡散を悩ませるデノイズ(動画あり)
- Authors: Tianyu Yuan, Yuanbo Yang, Lin-Zhuo Chen, Yao Yao, Zhuzhong Qian,
- Abstract要約: HeFT (Head-Frequency Tracker) は、事前訓練されたビデオ拡散モデルの視覚的先行性を利用するゼロショットポイント追跡フレームワークである。
本稿では,ビデオ拡散変換器(VDiT)の内部表現を分析し,それらがどのように情報を符号化しているかをよりよく理解する。
HeFTの最先端のゼロショット追跡性能は、教師あり手法の精度に近づいた。
- 参考スコア(独自算出の注目度): 12.086472765573278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce HeFT (Head-Frequency Tracker), a zero-shot point tracking framework that leverages the visual priors of pretrained video diffusion models. To better understand how they encode spatiotemporal information, we analyze the internal representations of Video Diffusion Transformer (VDiT). Our analysis reveals that attention heads act as minimal functional units with distinct specializations for matching, semantic understanding, and positional encoding. Additionally, we find that the low-frequency components in VDiT features are crucial for establishing correspondences, whereas the high-frequency components tend to introduce noise. Building on these insights, we propose a head- and frequency-aware feature selection strategy that jointly selects the most informative attention head and low-frequency components to enhance tracking performance. Specifically, our method extracts discriminative features through single-step denoising, applies feature selection, and employs soft-argmax localization with forward-backward consistency checks for correspondence estimation. Extensive experiments on TAP-Vid benchmarks demonstrate that HeFT achieves state-of-the-art zero-shot tracking performance, approaching the accuracy of supervised methods while eliminating the need for annotated training data. Our work further underscores the promise of video diffusion models as powerful foundation models for a wide range of downstream tasks, paving the way toward unified visual foundation models.
- Abstract(参考訳): 本研究では,予め訓練されたビデオ拡散モデルの視覚的先行性を活用するゼロショット点追跡フレームワークであるHeFT(Head-Frequency Tracker)を紹介する。
時空間情報をどのように符号化するかをよりよく理解するため,ビデオ拡散変換器(VDiT)の内部表現を分析した。
分析の結果,アテンションヘッドは最小限の機能単位として機能し,マッチング,意味理解,位置エンコーディングに特化していることがわかった。
さらに、VDiT特徴の低周波成分は対応を確立するのに不可欠であるが、高周波成分はノイズを起こす傾向がある。
これらの知見に基づいて,最も注目度の高い頭部と低周波成分を協調的に選択し,トラッキング性能を向上させるヘッド・アンド・周波数対応機能選択戦略を提案する。
具体的には,本手法は,単一ステップの認知によって識別的特徴を抽出し,特徴選択を適用し,ソフトアグマックスの局所化と前方整合性チェックを用いて対応推定を行う。
TAP-Vidベンチマークの大規模な実験は、HeFTが最先端のゼロショット追跡性能を達成し、教師あり手法の精度に近づきながら、注釈付きトレーニングデータを必要としないことを示した。
我々の研究は、幅広い下流タスクのための強力な基礎モデルとしてのビデオ拡散モデルの約束をさらに強調し、統一された視覚基盤モデルへの道を開いた。
関連論文リスト
- From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。
特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。
Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文 参考訳(メタデータ) (2025-06-30T05:01:40Z) - Emergent Temporal Correspondences from Video Diffusion Transformers [30.83001895223298]
DiffTrackは、この問題に答えるために設計された最初の定量的分析フレームワークである。
分析の結果,特定のクエリキーの類似性がすべてではないが,時間的マッチングにおいて重要な役割を担っていることが明らかとなった。
本研究は,映像の時間的整合性を改善する新たなガイダンス法により,動画の動作向上に拡張する。
論文 参考訳(メタデータ) (2025-06-20T17:59:55Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。
本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。
本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T10:57:37Z) - DINTR: Tracking via Diffusion-based Interpolation [12.130669304428565]
本研究は,トラッキングタスクを定式化するための拡散に基づく新しい手法を提案する。
我々のInterpolation TrackeR(DINTR)は、将来性のある新しいパラダイムを示し、5つの指標表現にまたがる7つのベンチマークにおいて優れた乗法を実現する。
論文 参考訳(メタデータ) (2024-10-14T00:41:58Z) - CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion [30.6593929365917]
ビデオのサリエンシ予測は、ビデオのボトムアップ機能や、記憶や認知などのトップダウンプロセスによって、人間の注意を引き、視線を惹きつけるビデオ内の領域を特定することを目的としている。
既存の手法は主に知覚情報のモデリングに重点を置いているが、言語による推論プロセスは無視されている。
本稿では,マルチモーダル大言語モデル(MLLM),グラウンドモジュール,拡散モデルを統合することで,そのプロセスを模倣するフレームワークであるCaRDiffを提案する。
論文 参考訳(メタデータ) (2024-08-21T21:40:30Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。