論文の概要: Fast Autoregressive Video Generation with Diagonal Decoding
- arxiv url: http://arxiv.org/abs/2503.14070v1
- Date: Tue, 18 Mar 2025 09:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:38.591157
- Title: Fast Autoregressive Video Generation with Diagonal Decoding
- Title(参考訳): 対角デコードによる高速自動回帰ビデオ生成
- Authors: Yang Ye, Junliang Guo, Haoyu Wu, Tianyu He, Tim Pearce, Tabish Rashid, Katja Hofmann, Jiang Bian,
- Abstract要約: DiagD (Diagonal Decoding) は、自己回帰事前学習モデルのためのトレーニング不要な推論高速化アルゴリズムである。
本手法は,空間的時間的トークングリッド内の対角経路に沿ってトークンを生成し,各フレーム内で並列デコードを可能にする。
DiagDは、単純でシーケンシャルなデコーディングに比べて最大10倍のスピードアップを達成すると同時に、同等の視覚的忠実さを維持している。
- 参考スコア(独自算出の注目度): 34.90521536645348
- License:
- Abstract: Autoregressive Transformer models have demonstrated impressive performance in video generation, but their sequential token-by-token decoding process poses a major bottleneck, particularly for long videos represented by tens of thousands of tokens. In this paper, we propose Diagonal Decoding (DiagD), a training-free inference acceleration algorithm for autoregressively pre-trained models that exploits spatial and temporal correlations in videos. Our method generates tokens along diagonal paths in the spatial-temporal token grid, enabling parallel decoding within each frame as well as partially overlapping across consecutive frames. The proposed algorithm is versatile and adaptive to various generative models and tasks, while providing flexible control over the trade-off between inference speed and visual quality. Furthermore, we propose a cost-effective finetuning strategy that aligns the attention patterns of the model with our decoding order, further mitigating the training-inference gap on small-scale models. Experiments on multiple autoregressive video generation models and datasets demonstrate that DiagD achieves up to $10\times$ speedup compared to naive sequential decoding, while maintaining comparable visual fidelity.
- Abstract(参考訳): 自動回帰トランスフォーマーモデルは、ビデオ生成において印象的なパフォーマンスを示しているが、そのシーケンシャルなトークン・バイ・トーケンの復号処理は、特に数万のトークンで表現された長いビデオにおいて、大きなボトルネックとなる。
本稿では,ビデオの空間的および時間的相関を利用した自己回帰事前学習モデルのトレーニング不要推論高速化アルゴリズムであるDiagDを提案する。
本手法は,空間的時間的トークングリッド内の対角線に沿ってトークンを生成し,各フレーム内の並列復号化と,連続するフレーム間の部分的に重なり合うようにする。
提案アルゴリズムは,様々な生成モデルやタスクに適応し,推論速度と視覚的品質のトレードオフを柔軟に制御する。
さらに,小型モデルにおけるトレーニングと推論のギャップを軽減し,モデルの注意パターンをデコード順序と整合させる,コスト効率の良い微調整手法を提案する。
複数の自動回帰ビデオ生成モデルとデータセットの実験により、DiagDは、単純なシーケンシャルデコーディングに比べて最大10\times$のスピードアップを達成すると同時に、同等の視覚的忠実さを維持していることが示された。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,SJD (Speculative Jacobi Decoding) の学習自由確率並列復号法を提案する。
SJDは、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を加速する。
具体的には、SJDは各ステップで複数のトークンを予測し、確率的基準に基づいてトークンを受け付けます。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Multistage Spatial Context Models for Learned Image Compression [19.15884180604451]
高速デコードとRD性能の両立が可能な多段階空間コンテキストモデルを提案する。
提案手法は,AutoregressiveのRD性能に到達しながら,Checkerboardに匹敵するデコード速度を特徴とする。
論文 参考訳(メタデータ) (2023-02-18T08:55:54Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。