論文の概要: Temporal Regularization Makes Your Video Generator Stronger
- arxiv url: http://arxiv.org/abs/2503.15417v1
- Date: Wed, 19 Mar 2025 16:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:27.792640
- Title: Temporal Regularization Makes Your Video Generator Stronger
- Title(参考訳): ビデオ・ジェネレーターがより強くなる「時間正規化」
- Authors: Harold Haodong Chen, Haojian Huang, Xianfeng Wu, Yexin Liu, Yajing Bai, Wen-Jie Shu, Harry Yang, Ser-Nam Lim,
- Abstract要約: 時間的品質は、フレーム間の一貫した動きと現実的なダイナミクスを保証するため、ビデオ生成の重要な側面である。
本稿では,ビデオ生成における時間的拡張を初めて導入し,FluxFlowを初回調査に導入する。
UCF-101とVBenchベンチマークの実験により、FluxFlowは様々なビデオ生成モデルにおける時間的コヒーレンスと多様性を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 34.33572297364156
- License:
- Abstract: Temporal quality is a critical aspect of video generation, as it ensures consistent motion and realistic dynamics across frames. However, achieving high temporal coherence and diversity remains challenging. In this work, we explore temporal augmentation in video generation for the first time, and introduce FluxFlow for initial investigation, a strategy designed to enhance temporal quality. Operating at the data level, FluxFlow applies controlled temporal perturbations without requiring architectural modifications. Extensive experiments on UCF-101 and VBench benchmarks demonstrate that FluxFlow significantly improves temporal coherence and diversity across various video generation models, including U-Net, DiT, and AR-based architectures, while preserving spatial fidelity. These findings highlight the potential of temporal augmentation as a simple yet effective approach to advancing video generation quality.
- Abstract(参考訳): 時間的品質は、フレーム間の一貫した動きと現実的なダイナミクスを保証するため、ビデオ生成の重要な側面である。
しかし、高い時間的コヒーレンスと多様性を達成することは依然として困難である。
本研究では,ビデオ生成における時間的拡張を初めて検討し,時間的品質向上を目的としたFluxFlowを初回調査に導入する。
データレベルで運用するFluxFlowは、アーキテクチャの変更を必要とせずに、制御された時間的摂動を適用します。
UCF-101とVBenchベンチマークの大規模な実験により、FluxFlowは空間の忠実さを保ちながら、U-Net、DiT、ARベースのアーキテクチャを含む様々なビデオ生成モデル間の時間的コヒーレンスと多様性を著しく改善することが示された。
これらの知見は、ビデオ生成品質を向上させるための単純かつ効果的なアプローチとして、時間拡張の可能性を強調している。
関連論文リスト
- BF-STVSR: B-Splines and Fourier-Best Friends for High Fidelity Spatial-Temporal Video Super-Resolution [14.082598088990352]
本稿では,映像の空間的特徴と時間的特徴をよりよく表現するための2つのキーモジュールを備えたC-STVSRフレームワークを提案する。
提案手法は最新のPSNRとSSIMの性能を実現し,空間的詳細化と時間的自然整合性を示す。
論文 参考訳(メタデータ) (2025-01-19T13:29:41Z) - DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations [25.756755602342942]
本稿では,この学習負担を段階的学習を通じて体系的に分解するプログレッシブ・ラーニング・ストラテジー(PLS)を特徴とするDiffVSRを提案する。
我々のフレームワークには、追加のトレーニングオーバーヘッドを伴わずに競合時間一貫性を維持するILT(Interweaved Latent Transition)技術も組み込まれています。
論文 参考訳(メタデータ) (2025-01-17T10:53:03Z) - ByTheWay: Boost Your Text-to-Video Generation Model to Higher Quality in a Training-free Way [72.1984861448374]
ByTheWayは、追加のパラメータやメモリ増設、サンプリング時間を導入することなく、テキスト・ビデオ生成の品質を向上させるためのトレーニング不要の方法である。
様々なデコーダブロックにまたがる時間的アテンションマップ間の差異を低減することにより、生成されたビデオの構造的妥当性と時間的一貫性を向上させる。
地図のエネルギーを増幅することで、運動の大きさと豊かさを高める。
論文 参考訳(メタデータ) (2024-10-08T17:56:33Z) - Inflation with Diffusion: Efficient Temporal Adaptation for
Text-to-Video Super-Resolution [19.748048455806305]
本稿では,効率的な拡散型テキスト・ビデオ・スーパーレゾリューション(SR)チューニング手法を提案する。
本稿では,我々の拡張アーキテクチャに基づく異なるチューニング手法について検討し,計算コストと超解像品質のトレードオフを報告する。
論文 参考訳(メタデータ) (2024-01-18T22:25:16Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。