論文の概要: RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2502.15894v1
- Date: Fri, 21 Feb 2025 19:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:28.283085
- Title: RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers
- Title(参考訳): RIFLEx:ビデオ拡散変圧器の長尺外挿用フリーランチ
- Authors: Min Zhao, Guande He, Yixiao Chen, Hongzhou Zhu, Chongxuan Li, Jun Zhu,
- Abstract要約: RIFLExは、最先端の動画拡散トランスフォーマーで高品質な2ドル(約2万2000円)の無料ランチだ。
画質を向上し、長いビデオなしで最小限の微調整で3ドル(約3,300円)で外挿できる。
- 参考スコア(独自算出の注目度): 29.663251658875673
- License:
- Abstract: Recent advancements in video generation have enabled models to synthesize high-quality, minute-long videos. However, generating even longer videos with temporal coherence remains a major challenge, and existing length extrapolation methods lead to temporal repetition or motion deceleration. In this work, we systematically analyze the role of frequency components in positional embeddings and identify an intrinsic frequency that primarily governs extrapolation behavior. Based on this insight, we propose RIFLEx, a minimal yet effective approach that reduces the intrinsic frequency to suppress repetition while preserving motion consistency, without requiring any additional modifications. RIFLEx offers a true free lunch--achieving high-quality $2\times$ extrapolation on state-of-the-art video diffusion transformers in a completely training-free manner. Moreover, it enhances quality and enables $3\times$ extrapolation by minimal fine-tuning without long videos. Project page and codes: \href{https://riflex-video.github.io/}{https://riflex-video.github.io/.}
- Abstract(参考訳): 近年のビデオ生成の進歩により、高品質の分長ビデオの合成が可能になった。
しかし、時間的コヒーレンスでさらに長いビデオを生成することは大きな課題であり、既存の長さ外挿法は時間的繰り返しや動きの減速につながる。
本研究では,位置埋め込みにおける周波数成分の役割を系統的に解析し,外挿行動を主に支配する内在周波数を同定する。
この知見に基づいて,動きの一貫性を保ちながら繰り返しを抑えるための固有周波数を最小かつ効果的に削減するRIFLExを提案する。
RIFLExは、真の無料ランチサービスで、最先端のビデオ拡散トランスフォーマーを、まったくの訓練なしで、高品質な2ドル(約2万2000円)で外挿できる。
さらに、画質を向上し、長いビデオなしで最小限の微調整をすることで、$3\times$の外挿を可能にする。
プロジェクトページとコード: \href{https://riflex-video.github.io/}{https://riflex-video.github.io/
※
関連論文リスト
- SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。
我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。
具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文 参考訳(メタデータ) (2024-12-13T14:50:26Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion [15.013908857230966]
ルークバック機構は、異なるビデオクリップ間の微粒なシーン遷移を促進する。
長期の整合性正規化は、拡張ビデオクリップの予測ノイズと元のノイズとの画素幅距離を明示的に最小化することに焦点を当てる。
単文および複数文のプロンプト条件下で長ビデオ生成を行うことによる戦略の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-07T16:56:42Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - FlashVideo: A Framework for Swift Inference in Text-to-Video Generation [9.665089218030086]
本稿では,高速テキスト・ツー・ビデオ生成に適した新しいフレームワークであるFlashVideoを紹介する。
FlashVideoは推論の時間的複雑さを$mathcalO(L2)$から$mathcalO(L)$に減らし、推論速度を大幅に加速する。
包括的な実験により、FlashVideoは従来の自己回帰型トランスモデルよりも$times9.17$改善され、推論速度はBERTベースのトランスモデルと同じ桁であることが示された。
論文 参考訳(メタデータ) (2023-12-30T00:06:28Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Across Scales & Across Dimensions: Temporal Super-Resolution using Deep
Internal Learning [11.658606722158517]
我々は、低フレームの入力ビデオから直接抽出した例に基づいて、ビデオ固有のCNNを訓練する。
提案手法は,単一ビデオシーケンス内の小さな時空間パッチの強い再帰性を利用する。
ビデオフレームの高解像度化は、そのビデオの時間分解能を高めるための強力な例を提供する。
論文 参考訳(メタデータ) (2020-03-19T15:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。