論文の概要: Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos
- arxiv url: http://arxiv.org/abs/2605.18233v1
- Date: Mon, 18 May 2026 11:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.493898
- Title: Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos
- Title(参考訳): 連続長ビデオのための列車自由無限フレーム生成の強化
- Authors: X. Feng, J. Zhu, M. Wu, C. Chen, F. Mao, H. Guo, J. Wu, X. Chu, K. Huang,
- Abstract要約: 列車なしの長ビデオ生成は、基礎的なビデオ生成モデルがより長いビデオを生成することを可能にすることを目的としている。
フレームレベルの自己回帰フレームワーク、例えばFIFO拡散は、一定のメモリ消費で無限に長いビデオを生成する利点を提供する。
我々は,新しい無限フレーム長ビデオ生成法である textbfMIGA を提案する。
- 参考スコア(独自算出の注目度): 0.05417521241272644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Without incurring significant computational overhead, train-free long video generation aims to enable foundation video generation models to produce longer videos. Frame-level autoregressive frameworks, e.g., FIFO-diffusion, offer the advantage of generating infinitely long videos with constant memory consumption. However, the mismatch between training and inference, coupled with the challenge of maintaining long-term consistency, limits the effective utilization of foundation models. To mitigate these concerns, we propose \textbf{MIGA}, a novel infinite-frame long video generation method. Firstly, we propose an effective two-stage alignment mechanism that mitigates the training-inference gap by reducing the excessive noise span fed to the model. We then introduce an innovative dual consistency enhancement mechanism, where the self-reflection approach corrects early high-noise frames and the long-range frame guidance approach leverages later low-noise frames with broad coverage to steer generation, jointly improving temporal consistency. Extensive experiments on VBench and NarrLV demonstrate the state-of-the-art performance of MIGA. Our project page is available at https://xiaokunfeng.github.io/miga_homepage/.
- Abstract(参考訳): 大幅な計算オーバーヘッドを発生させることなく、列車なしの長ビデオ生成は、基礎となるビデオ生成モデルがより長いビデオを生成することを可能にすることを目的としている。
フレームレベルの自己回帰フレームワーク(例:FIFO拡散)は、メモリ消費が一定である無限に長いビデオを生成する利点を提供する。
しかし、トレーニングと推論のミスマッチは、長期的な一貫性を維持するという課題と相まって、基礎モデルの効果的な利用を制限している。
これらの懸念を軽減するために,新しい無限フレーム長ビデオ生成法である \textbf{MIGA} を提案する。
まず、モデルに供給される過度なノイズを低減し、トレーニングと推論のギャップを緩和する効果的な2段階アライメント機構を提案する。
次に、自己回帰法により初期高次フレームを補正し、長距離フレーム誘導法では、後続低次フレームをステアジェネレーションに広く適用し、時間的一貫性を共同的に向上する、革新的な二重整合性向上機構を導入する。
VBenchとNarrLVの大規模実験によりMIGAの最先端性能が実証された。
私たちのプロジェクトページはhttps://xiaokunfeng.github.io/miga_homepage/.comで公開されている。
関連論文リスト
- DCARL: A Divide-and-Conquer Framework for Autoregressive Long-Trajectory Video Generation [10.575655795360937]
DCARLは、分割・変換方式の構造安定性と高忠実度VDMの生成を結合した、新規な分割・変換型自己回帰フレームワークである。
提案手法は,最先端の自己回帰的・分割型ベースラインと比較して,視覚的品質とカメラの密着性の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2026-03-25T22:07:09Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - Inference-based GAN Video Generation [47.53991869205973]
可変エンコーダを用いた対向型非条件ビデオジェネレータの実現により,新しいタイプのビデオジェネレータを提案する。
既存のモデルは、生成されたビデオの時間的スケーリングに苦労する。
私たちは、数百から数千のフレームからなる長いビデオを生成するために、新しい、メモリ効率のアプローチを採用しています。
論文 参考訳(メタデータ) (2025-12-25T20:14:38Z) - Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation [69.57572900337176]
本稿では,効率的なストリーミングビデオ生成のための新しいフレームワークであるReward Forcingを紹介する。
EMA-Sinkトークンは、長期コンテキストと最近のダイナミクスの両方をキャプチャし、初期フレームコピーを防ぐ。
Re-DMDは、視覚言語モデルにより評価されたより大きなダイナミックスを持つサンプルを優先順位付けすることで、モデル出力分布を高逆領域にバイアスする。
論文 参考訳(メタデータ) (2025-12-04T11:12:13Z) - Pack and Force Your Memory: Long-form and Consistent Video Generation [26.53691150499802]
ロングフォームビデオ生成は2つの課題を提示します。
モデルは、自動回帰復号に固有のエラーの蓄積を防止しながら、長距離依存関係をキャプチャしなければなりません。
MemoryPackとDirect Forcingは、長期ビデオ生成のコンテキスト一貫性と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-02T08:22:46Z) - Rolling Forcing: Autoregressive Long Video Diffusion in Real Time [86.40480237741609]
Rolling Forcingは、エラーの最小限の蓄積で長いビデオをストリーミングできる、新しいビデオ生成技術である。
転がり強制力には3つの新しい設計が伴う。第一に、エラー伝播を加速する個別のフレームを反復的にサンプリングする代わりに、共同演示方式を設計する。
第2に,アテンションシンク機構を長軸ストリームビデオ生成タスクに導入し,初期フレームのキー値状態をグローバルなコンテキストアンカーとして保持する。
第3に,大半が拡張された遮音窓上での無段蒸留を可能にする効率的な訓練アルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-09-29T17:57:14Z) - LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE [16.561410415129778]
LongScapeは、チャンク内拡散とチャンク間自己回帰因果生成を組み合わせたハイブリッドフレームワークである。
私たちの中心となるイノベーションは、ロボットアクションのセマンティックコンテキストに基づいてビデオを分割するアクションガイド付き可変長チャンキングメカニズムです。
論文 参考訳(メタデータ) (2025-09-26T02:47:05Z) - Long-Context Autoregressive Video Modeling with Next-Frame Prediction [17.710915002557996]
長文ビデオモデリングは、生成モデルが世界シミュレータとして機能するために不可欠である。
長いビデオで直接トレーニングすることは自然な解決策だが、視覚トークンの急速な成長は計算的に禁止する。
フレームオートレグレッシブ(FAR)モデルを提案し、連続フレーム間の時間的依存関係をモデル化し、ビデオ拡散変換器よりも高速に収束し、トークンレベルの自己回帰モデルより優れる。
論文 参考訳(メタデータ) (2025-03-25T03:38:06Z) - Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。
We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文 参考訳(メタデータ) (2025-01-15T18:59:15Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。