論文の概要: Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
- arxiv url: http://arxiv.org/abs/2508.03334v2
- Date: Wed, 06 Aug 2025 08:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 13:27:10.403074
- Title: Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
- Title(参考訳): 高速・並列化された自己回帰長ビデオ生成のためのマイクロプランニング
- Authors: Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li,
- Abstract要約: 現在の自己回帰拡散モデルは、ビデオ生成時に優れるが、一般的には短時間の時間に限られる。
長期ビデオ生成のためのマクロからマイクロプランニング(MMPL)を主眼としたプランニング・テーマ・ポピュレーション・フレームワークを提案する。
MMPLは、マイクロプランニングとマクロプランニングという2つの階層的なステージを通じて、ビデオ全体のグローバルなストーリーラインをスケッチします。
- 参考スコア(独自算出の注目度): 50.42977813298953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current autoregressive diffusion models excel at video generation but are generally limited to short temporal durations. Our theoretical analysis indicates that the autoregressive modeling typically suffers from temporal drift caused by error accumulation and hinders parallelization in long video synthesis. To address these limitations, we propose a novel planning-then-populating framework centered on Macro-from-Micro Planning (MMPL) for long video generation. MMPL sketches a global storyline for the entire video through two hierarchical stages: Micro Planning and Macro Planning. Specifically, Micro Planning predicts a sparse set of future keyframes within each short video segment, offering motion and appearance priors to guide high-quality video segment generation. Macro Planning extends the in-segment keyframes planning across the entire video through an autoregressive chain of micro plans, ensuring long-term consistency across video segments. Subsequently, MMPL-based Content Populating generates all intermediate frames in parallel across segments, enabling efficient parallelization of autoregressive generation. The parallelization is further optimized by Adaptive Workload Scheduling for balanced GPU execution and accelerated autoregressive video generation. Extensive experiments confirm that our method outperforms existing long video generation models in quality and stability. Generated videos and comparison results are in our project page.
- Abstract(参考訳): 現在の自己回帰拡散モデルはビデオ生成時に優れるが、一般に短時間の時間に限られる。
我々の理論的分析は、自己回帰モデリングは一般的に、エラー蓄積による時間的ドリフトに悩まされ、長いビデオ合成における並列化を妨げていることを示唆している。
これらの制約に対処するため,長いビデオ生成のためのマクロ・トゥ・マイクロ・プランニング(MMPL)を中心とした新しいプランニング・テーマ・ポピュレーション・フレームワークを提案する。
MMPLは、マイクロプランニングとマクロプランニングという2つの階層的なステージを通じて、ビデオ全体のグローバルなストーリーラインをスケッチします。
特に、Micro Planningは、各ショートビデオセグメント内の将来のキーフレームのスパースセットを予測し、高品質なビデオセグメント生成をガイドするための動きと外観を提供する。
マクロプランニングは、ビデオ全体のキーフレーム内のプランニングを、ビデオセグメント間の長期的な一貫性を確保するために、自動回帰的なマイクロプランチェーンを通じて拡張する。
その後、MMPLベースのContent Populationはセグメント間で全ての中間フレームを並列に生成し、自己回帰生成の効率的な並列化を可能にする。
並列化はさらに、GPU実行のバランスと自動回帰ビデオ生成の高速化のために、Adaptive Workload Schedulingによって最適化されている。
大規模な実験により,本手法は,既存の長大映像生成モデルよりも品質と安定性に優れていたことが確認された。
生成したビデオと比較結果がプロジェクトページにある。
関連論文リスト
- STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [24.86836673853292]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - MarDini: Masked Autoregressive Diffusion for Video Generation at Scale [76.84820168294586]
MarDiniは、マスク付き自己回帰の利点を統合拡散モデル(DM)フレームワークに統合する、ビデオ拡散モデルの新たなファミリーである。
MarDiniは、ビデオグルーフのための新しい最先端の技術を、より高価な高度な画像とビデオのモデルに匹敵するビデオを効率よく生成する。
論文 参考訳(メタデータ) (2024-10-26T21:12:32Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。