論文の概要: Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation
- arxiv url: http://arxiv.org/abs/2412.06016v1
- Date: Sun, 08 Dec 2024 18:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:50.785273
- Title: Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation
- Title(参考訳): Track4Gen:ビデオの拡散モデルにトラックポイントを教えることでビデオ生成を改善
- Authors: Hyeonho Jeong, Chun-Hao Paul Huang, Jong Chul Ye, Niloy Mitra, Duygu Ceylan,
- Abstract要約: Track4Genは、ビデオ拡散損失とフレーム間のポイントトラッキングを組み合わせた空間的に認識されたビデオジェネレータである。
Track4Genは、安定したビデオ拡散をバックボーンとして使用し、ビデオ生成とポイントトラッキングを統合することが可能であることを実証している。
評価の結果,Track4Genは外見のドリフトを効果的に低減し,時間的安定性と視覚的コヒーレントな映像生成を実現することがわかった。
- 参考スコア(独自算出の注目度): 51.67955062711145
- License:
- Abstract: While recent foundational video generators produce visually rich output, they still struggle with appearance drift, where objects gradually degrade or change inconsistently across frames, breaking visual coherence. We hypothesize that this is because there is no explicit supervision in terms of spatial tracking at the feature level. We propose Track4Gen, a spatially aware video generator that combines video diffusion loss with point tracking across frames, providing enhanced spatial supervision on the diffusion features. Track4Gen merges the video generation and point tracking tasks into a single network by making minimal changes to existing video generation architectures. Using Stable Video Diffusion as a backbone, Track4Gen demonstrates that it is possible to unify video generation and point tracking, which are typically handled as separate tasks. Our extensive evaluations show that Track4Gen effectively reduces appearance drift, resulting in temporally stable and visually coherent video generation. Project page: hyeonho99.github.io/Track4Gen
- Abstract(参考訳): 最近の基礎的なビデオジェネレータは視覚的に豊かな出力を生成するが、外見の漂流に苦しむ。
これは特徴レベルでの空間的追跡に関して明確な監督が存在しないためである、という仮説を立てる。
本研究では,映像拡散損失とフレーム間の点追跡を組み合わせた空間的認識型映像生成装置Track4Genを提案する。
Track4Genは、既存のビデオ生成アーキテクチャに最小限の変更を加えることで、ビデオ生成タスクとポイントトラッキングタスクを単一のネットワークにマージする。
Track4Genは、安定したビデオ拡散をバックボーンとして使用することにより、ビデオ生成とポイントトラッキングを統合することが可能であることを実証している。
広範に評価した結果,Track4Genは外見のドリフトを効果的に低減し,時間的に安定かつ視覚的にコヒーレントな映像生成を実現することがわかった。
プロジェクトページ:hyeonho99.github.io/Track4Gen
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - TrackGo: A Flexible and Efficient Method for Controllable Video Generation [32.906496577618924]
条件付きビデオ生成のための新しいアプローチであるTrackGoを紹介する。
TrackGoは、ビデオコンテンツを操作するための柔軟で正確なメカニズムを提供する。
また,制御実装のためのTrackAdapterを提案する。
論文 参考訳(メタデータ) (2024-08-21T09:42:04Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - VGMShield: Mitigating Misuse of Video Generative Models [7.963591895964269]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが先駆的な3つの緩和セットである。
まず、生成されたビデオにユニークさがあるかどうか、そしてそれらを実際のビデオと区別できるかどうかを理解する。
そこで本研究では,偽動画を生成モデルにマッピングするテクトニクス問題について検討する。
論文 参考訳(メタデータ) (2024-02-20T16:39:23Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Generating Videos with Dynamics-aware Implicit Generative Adversarial
Networks [68.93429034530077]
ビデオ生成のための動的認識型暗黙的生成対向ネットワーク(DIGAN)を提案する。
従来の48フレームよりも80フレーム長の解像度128×128の128フレームビデオで,DIGANをトレーニングできることが示されている。
論文 参考訳(メタデータ) (2022-02-21T23:24:01Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。