論文の概要: History-Guided Video Diffusion
- arxiv url: http://arxiv.org/abs/2502.06764v1
- Date: Mon, 10 Feb 2025 18:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:07.325864
- Title: History-Guided Video Diffusion
- Title(参考訳): 歴史誘導型ビデオ拡散
- Authors: Kiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann,
- Abstract要約: ビデオ拡散は、可変数のコンテキストフレーム上に設定されたビデオ条件を生成し、総称してヒストリと呼ばれる。
可変長履歴を導く上で重要な課題は、固定サイズの条件付けのみをサポートするアーキテクチャと、CFGスタイルの履歴ドロップアウトが不十分な経験的観察である。
DFoTによって一意に実現されたガイダンス手法であるHistory Guidanceを紹介する。
- 参考スコア(独自算出の注目度): 61.03681839276652
- License:
- Abstract: Classifier-free guidance (CFG) is a key technique for improving conditional generation in diffusion models, enabling more accurate control while enhancing sample quality. It is natural to extend this technique to video diffusion, which generates video conditioned on a variable number of context frames, collectively referred to as history. However, we find two key challenges to guiding with variable-length history: architectures that only support fixed-size conditioning, and the empirical observation that CFG-style history dropout performs poorly. To address this, we propose the Diffusion Forcing Transformer (DFoT), a video diffusion architecture and theoretically grounded training objective that jointly enable conditioning on a flexible number of history frames. We then introduce History Guidance, a family of guidance methods uniquely enabled by DFoT. We show that its simplest form, vanilla history guidance, already significantly improves video generation quality and temporal consistency. A more advanced method, history guidance across time and frequency further enhances motion dynamics, enables compositional generalization to out-of-distribution history, and can stably roll out extremely long videos. Website: https://boyuan.space/history-guidance
- Abstract(参考訳): 分類器フリーガイダンス(CFG)は拡散モデルにおける条件生成を改善するための鍵となる手法であり、サンプルの品質を高めながらより正確な制御を可能にする。
この手法をビデオ拡散に拡張することは自然なことであり、この手法は様々なコンテキストフレームに条件付けされた映像を生成し、これを総称してヒストリと呼ぶ。
しかし、可変長履歴を導く上で重要な課題は、固定サイズの条件付けのみをサポートするアーキテクチャと、CFGスタイルの履歴のドロップアウトが不十分な経験的観察である。
そこで本研究では,ビデオ拡散アーキテクチャと,フレキシブルな履歴フレームの条件付けを共同で行うための学習目標であるDiffusion Forcing Transformer (DFoT)を提案する。
次に、DFoTによって一意に実現されたガイダンス手法のファミリーであるHistory Guidanceを紹介する。
最も単純なバニラ・ヒストリ・ガイダンスは、ビデオ生成の品質と時間的一貫性を著しく向上させています。
より先進的な方法、時間と周波数の履歴ガイダンスは、動きのダイナミクスをさらに強化し、構成的な一般化をアウト・オブ・ディストリビューション・ヒストリに実現し、非常に長いビデオを安定して配信することができる。
Webサイト:https://boyuan.space/history-guidance
関連論文リスト
- Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling [14.450847211200292]
マルチモダリティアプリケーションの台頭に伴い、ビデオ理解はますます重要になっている。
適応状態モデリングによりこれらの問題を克服する新しいシステムC-VUEを導入する。
C-VUEには3つの重要な設計がある。第1に、歴史的ビデオ情報を保持するためにビデオ認識アプローチを使用する長距離履歴モデリング技術である。
2つ目は空間冗長性低減手法で、時間的関係に基づく歴史モデリングの効率を高める。
論文 参考訳(メタデータ) (2024-10-19T05:50:00Z) - Learning Truncated Causal History Model for Video Restoration [14.381907888022615]
TURTLEは、効率的かつ高性能なビデオ復元のための散在した因果履歴モデルを学ぶ。
我々は,多数のビデオ復元ベンチマークタスクに関する最新の結果について報告する。
論文 参考訳(メタデータ) (2024-10-04T21:31:02Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Just a Glimpse: Rethinking Temporal Information for Video Continual
Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。
極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。
提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文 参考訳(メタデータ) (2023-05-28T19:14:25Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。