論文の概要: Transform Trained Transformer: Accelerating Naive 4K Video Generation Over 10$\times$
- arxiv url: http://arxiv.org/abs/2512.13492v1
- Date: Mon, 15 Dec 2025 16:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.747486
- Title: Transform Trained Transformer: Accelerating Naive 4K Video Generation Over 10$\times$
- Title(参考訳): Transform Trained Transformer: ナイーブな4Kビデオ生成を10$\times$で高速化
- Authors: Jiangning Zhang, Junwei Zhu, Teng Hu, Yabiao Wang, Donghao Luo, Weijian Cao, Zhenye Gan, Xiaobin Hu, Zhucun Xue, Chengjie Wang,
- Abstract要約: ネイティブ4Kビデオ生成は、解像度が増大するにつれて、フルアテンションの二次的な計算爆発のため、依然として重要な課題である。
本稿では,前処理ロジックを最適化することで計算要求を大幅に削減する,$textbfT3-Video$と呼ばれる新しいトランスフォーマー補正戦略を提案する。
4K-VBenchの結果は、$textbfT3-Video$が既存のアプローチを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 91.61519033897424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Native 4K (2160$\times$3840) video generation remains a critical challenge due to the quadratic computational explosion of full-attention as spatiotemporal resolution increases, making it difficult for models to strike a balance between efficiency and quality. This paper proposes a novel Transformer retrofit strategy termed $\textbf{T3}$ ($\textbf{T}$ransform $\textbf{T}$rained $\textbf{T}$ransformer) that, without altering the core architecture of full-attention pretrained models, significantly reduces compute requirements by optimizing their forward logic. Specifically, $\textbf{T3-Video}$ introduces a multi-scale weight-sharing window attention mechanism and, via hierarchical blocking together with an axis-preserving full-attention design, can effect an "attention pattern" transformation of a pretrained model using only modest compute and data. Results on 4K-VBench show that $\textbf{T3-Video}$ substantially outperforms existing approaches: while delivering performance improvements (+4.29$\uparrow$ VQA and +0.08$\uparrow$ VTC), it accelerates native 4K video generation by more than 10$\times$. Project page at https://zhangzjn.github.io/projects/T3-Video
- Abstract(参考訳): ネイティブ4K (2160$\times$3840) ビデオ生成は、時空間分解が増加するにつれてフルアテンションが2次的に爆発するので、モデルが効率と品質のバランスをとるのが難しくなるため、依然として重要な課題である。
本稿では、フルアテンション事前学習モデルのコアアーキテクチャを変更することなく、フォワードロジックを最適化することで計算要求を大幅に削減する、新しいTransformerのレトロフィット戦略である$\textbf{T3}$$$\textbf{T}$ransform $\textbf{T}$rained $\textbf{T}$ransformerを提案する。
具体的には、$\textbf{T3-Video}$は、マルチスケールのウェイトシェアリングウィンドウアテンション機構を導入し、階層的ブロッキングと軸保存フルアテンション設計により、控えめな計算とデータのみを使用して事前訓練されたモデルの"アテンションパターン"変換を実現できる。
4K-VBenchの結果、$\textbf{T3-Video}$は、パフォーマンスの改善(+4.29$\uparrow$ VQAと+0.08$\uparrow$ VTC)を提供する一方で、ネイティブな4Kビデオ生成を10$\times$以上高速化する。
Project page at https://zhangzjn.github.io/projects/T3-Video
関連論文リスト
- H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers [124.11648300910444]
Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。
提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-09-08T17:59:59Z) - PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation [18.2095668161519]
Pusaは、一貫したビデオ拡散フレームワーク内で微細な時間的制御を可能にする、画期的なパラダイムである。
We set a new standard for image-to-video (I2V) generation, to achieve a VBench-I2V total score 87.32%。
この研究は、次世代のビデオ合成のためのスケーラブルで効率的で多用途なパラダイムを確立する。
論文 参考訳(メタデータ) (2025-07-22T00:09:37Z) - Astraea: A Token-wise Acceleration Framework for Video Diffusion Transformers [29.130090574300635]
ビデオ拡散変換器(vDiTs)は、テキストからビデオへの生成において大きな進歩を遂げているが、その計算要求は、実用的な展開において大きな課題となっている。
Astraeaは,vDiTをベースとしたビデオ生成の最適に近い構成を,パフォーマンス目標下で検索するフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T14:41:38Z) - Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。
本稿では,映像予測の文脈における3次元注意の包括的分析を行う。
精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - FlashVideo: A Framework for Swift Inference in Text-to-Video Generation [9.665089218030086]
本稿では,高速テキスト・ツー・ビデオ生成に適した新しいフレームワークであるFlashVideoを紹介する。
FlashVideoは推論の時間的複雑さを$mathcalO(L2)$から$mathcalO(L)$に減らし、推論速度を大幅に加速する。
包括的な実験により、FlashVideoは従来の自己回帰型トランスモデルよりも$times9.17$改善され、推論速度はBERTベースのトランスモデルと同じ桁であることが示された。
論文 参考訳(メタデータ) (2023-12-30T00:06:28Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Primer: Searching for Efficient Transformers for Language Modeling [79.2677566332444]
大型トランスフォーマーモデルのトレーニングと推論コストは急速に増加し、高価になっている。
ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。
私たちは、オリジナルのTransformerよりもトレーニングコストの少ないPrimerというアーキテクチャを特定します。
論文 参考訳(メタデータ) (2021-09-17T17:50:39Z) - VidTr: Video Transformer Without Convolutions [32.710988574799735]
時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。
VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-04-23T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。