論文の概要: Repurposing Video Diffusion Transformers for Robust Point Tracking
- arxiv url: http://arxiv.org/abs/2512.20606v1
- Date: Tue, 23 Dec 2025 18:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.981158
- Title: Repurposing Video Diffusion Transformers for Robust Point Tracking
- Title(参考訳): ロバスト点追跡のためのビデオ拡散変換器の再生
- Authors: Soowon Son, Honggyu An, Chaehyun Kim, Hyunah Ko, Jisu Nam, Dahyun Chung, Siyoon Jin, Jung Yi, Jaewon Min, Junhwa Hur, Seungryong Kim,
- Abstract要約: 既存のメソッドは、フレームを独立して処理するResNetのような浅い畳み込みバックボーンに依存している。
ビデオトランスフォーマー(DiT)は本質的に、強力な点追跡能力を持ち、動的動作を頑健に扱う。
本研究は,ポイントトラッキングの有効かつ効率的な基盤として,ビデオDiT機能を検証する。
- 参考スコア(独自算出の注目度): 35.486648006768256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point tracking aims to localize corresponding points across video frames, serving as a fundamental task for 4D reconstruction, robotics, and video editing. Existing methods commonly rely on shallow convolutional backbones such as ResNet that process frames independently, lacking temporal coherence and producing unreliable matching costs under challenging conditions. Through systematic analysis, we find that video Diffusion Transformers (DiTs), pre-trained on large-scale real-world videos with spatio-temporal attention, inherently exhibit strong point tracking capability and robustly handle dynamic motions and frequent occlusions. We propose DiTracker, which adapts video DiTs through: (1) query-key attention matching, (2) lightweight LoRA tuning, and (3) cost fusion with a ResNet backbone. Despite training with 8 times smaller batch size, DiTracker achieves state-of-the-art performance on challenging ITTO benchmark and matches or outperforms state-of-the-art models on TAP-Vid benchmarks. Our work validates video DiT features as an effective and efficient foundation for point tracking.
- Abstract(参考訳): ポイントトラッキングは、ビデオフレーム間で対応するポイントをローカライズすることを目的としており、4D再構成、ロボティクス、ビデオ編集の基本的なタスクとして機能している。
既存の手法は通常、フレームを独立して処理するResNetのような浅い畳み込みバックボーンに依存し、時間的コヒーレンスを欠き、困難な条件下では信頼性の低いマッチングコストを発生させる。
映像拡散変換器 (DiTs) は時空間に注意を向けた大規模な実世界のビデオで事前学習され, 本質的には強力な点追跡能力を示し, 動的動きや頻繁な閉塞を頑健に扱っている。
本稿では,(1)クエリキーのアテンションマッチング,(2)ライトウェイトなLoRAチューニング,(3)ResNetバックボーンとのコスト融合を行うDiTrackerを提案する。
バッチサイズが8倍のトレーニングにもかかわらず、DiTrackerはITTOベンチマークに挑戦して最先端のパフォーマンスを達成し、TAP-Vidベンチマークの最先端モデルにマッチするか、パフォーマンスを向上する。
本研究は,ポイントトラッキングの有効かつ効率的な基盤として,ビデオDiT機能を検証する。
関連論文リスト
- DiTraj: training-free trajectory control for video diffusion transformer [34.05715460730871]
軌道制御は、制御可能なビデオ生成におけるユーザフレンドリなタスクを表す。
提案するDiTrajは,DiTに適したテキスト・ビデオ生成におけるトラジェクトリ制御のためのトレーニングフリーフレームワークである。
提案手法は,映像品質とトラジェクトリ制御性の両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-26T03:53:31Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Track-On: Transformer-based Online Point Tracking with Memory [34.744546679670734]
オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。
フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理する。
推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
論文 参考訳(メタデータ) (2025-01-30T17:04:11Z) - TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video [36.27277088961125]
通常のビデオではうまく機能するが、長いビデオでは失敗する傾向にあるポイントトラッキングフレームワークであるTAPTRv3を提案する。
空間的および時間的文脈の両方を用いて、空間的および時間的次元に沿ってより優れた特徴クエリを実現する。
TAPTRv3は、挑戦的なデータセットの大部分でTAPTRv2をはるかに上回り、最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-11-27T17:37:22Z) - Fast Encoder-Based 3D from Casual Videos via Point Track Processing [22.563073026889324]
そこで我々は,カジュアルビデオから3D構造とカメラの位置を動的コンテンツから推定できる学習ベースのTracksTo4Dを提案する。
TracksTo4Dは、カジュアルなビデオのデータセットに基づいて教師なしの方法で訓練される。
実験により、TracksTo4Dは、最先端の手法に匹敵する精度で、基礎となるビデオの時間点雲とカメラの位置を再構築できることが示された。
論文 参考訳(メタデータ) (2024-04-10T15:37:00Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - TAP-Vid: A Benchmark for Tracking Any Point in a Video [84.94877216665793]
我々は、より長いビデオクリップで表面上の任意の物理点を追跡するという問題を定式化し、任意の点(TAP)を追尾する。
そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオとを併用したベンチマーク,TAP-Vidを提案する。
本稿では, 簡易な終端点追跡モデルTAP-Netを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。