Fugu-MT 論文翻訳(概要): Not All Frames Deserve Full Computation: Accelerating Autoregressive Video Generation via Selective Computation and Predictive Extrapolation

論文の概要: Not All Frames Deserve Full Computation: Accelerating Autoregressive Video Generation via Selective Computation and Predictive Extrapolation

arxiv url: http://arxiv.org/abs/2604.02979v1
Date: Fri, 03 Apr 2026 11:34:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.461582
Title: Not All Frames Deserve Full Computation: Accelerating Autoregressive Video Generation via Selective Computation and Predictive Extrapolation
Title（参考訳）: すべてのフレームが完全計算を保存するわけではない:選択計算と予測外挿による自動回帰ビデオ生成の高速化
Authors: Hanshuai Cui, Zhiqing Tang, Zhi Yao, Fanshuai Meng, Weijia Jia, Wei Zhao,
Abstract要約: オートレグレッシブ(AR)ビデオ拡散モデルは、長めのビデオ生成を可能にするが、複数ステップの復調を繰り返して高価である。我々は,効率的なARビデオ拡散のためのトレーニングフリーフレームワークSCOPEを提案する。 MAGI-1とSkyReels-V2では、SCOPEは元の出力に匹敵する品質を維持しながら最大4.73倍のスピードアップを達成する。
参考スコア（独自算出の注目度）: 8.70067126225172
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive (AR) video diffusion models enable long-form video generation but remain expensive due to repeated multi-step denoising. Existing training-free acceleration methods rely on binary cache-or-recompute decisions, overlooking intermediate cases where direct reuse is too coarse yet full recomputation is unnecessary. Moreover, asynchronous AR schedules assign different noise levels to co-generated frames, yet existing methods process the entire valid interval uniformly. To address these AR-specific inefficiencies, we present SCOPE, a training-free framework for efficient AR video diffusion. SCOPE introduces a tri-modal scheduler over cache, predict, and recompute, where prediction via noise-level Taylor extrapolation fills the gap between reuse and recomputation with explicit stability controls backed by error propagation analysis. It further introduces selective computation that restricts execution to the active frame interval. On MAGI-1 and SkyReels-V2, SCOPE achieves up to 4.73x speedup while maintaining quality comparable to the original output, outperforming all training-free baselines.
Abstract（参考訳）: オートレグレッシブ(AR)ビデオ拡散モデルは、長めのビデオ生成を可能にするが、複数ステップの復調を繰り返して高価である。既存のトレーニング不要のアクセラレーション手法はバイナリキャッシュや再計算による決定に依存しており、直接再利用が大きすぎるが完全な再計算が不要な中間ケースを見渡すことができる。さらに、非同期ARスケジュールは、異なるノイズレベルを共生成フレームに割り当てるが、既存のメソッドは有効間隔全体を均一に処理する。これらのAR固有の非効率性に対処するために,効率的なARビデオ拡散のためのトレーニング不要フレームワークSCOPEを提案する。 SCOPEはキャッシュ、予測、再計算によるトリモーダルスケジューラを導入し、ノイズレベルのTaylor外挿による予測は、エラー伝搬解析を背景とした明確な安定性制御による再利用と再計算のギャップを埋める。さらに、実行をアクティブフレーム間隔に制限する選択的計算を導入する。 MAGI-1とSkyReels-V2ではSCOPEは最大4.73倍のスピードアップを実現し、元の出力に匹敵する品質を維持した。

関連論文リスト

SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory [25.57144961436966]
自己回帰(AR)拡散モデルは、ビデオ合成のような逐次生成タスクのための有望なフレームワークを提供する。同じ雑音条件下で隣接フレームを時間的に伝播する拡散ステップ整合AR式であるNeighbor Forcingを提案する。提案手法は,既存のAR拡散法と比較して,トレーニング収束,時間スケール生成品質,推論効率を著しく向上させる。
論文参考訳（メタデータ） (2026-03-12T09:49:58Z)
USV: Unified Sparsification for Accelerating Video Diffusion Models [11.011602744993942]
ビデオ拡散モデルのための統一スパシフィケーションは、エンドツーエンドのトレーニング可能なフレームワークである。モデルの内部計算とサンプリングプロセスの両方でスパーシフィケーションをオーケストレーションする。最大83.3%のスピードアップと22.7%のエンドツーエンドの加速を実現し、高い視力を維持している。
論文参考訳（メタデータ） (2025-12-05T14:40:06Z)
Sortblock: Similarity-Aware Feature Reuse for Diffusion Model [9.749736545966694]
Diffusion Transformer (DiTs) は顕著な生成能を示した。 DiTのシーケンシャルな denoising プロセスは、高い推論遅延をもたらす。トレーニング不要な推論アクセラレーションフレームワークであるSoltblockを提案する。
論文参考訳（メタデータ） (2025-08-01T08:10:54Z)
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。 VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文参考訳（メタデータ） (2024-07-27T08:21:14Z)
Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。 2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文参考訳（メタデータ） (2023-09-04T14:18:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。