論文の概要: GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2512.03451v1
- Date: Wed, 03 Dec 2025 05:08:18 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:23.611311
- Title: GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy in Diffusion Transformers
- Title(参考訳): GalaxyDiT:拡散変換器の誘導アライメントと適応プロキシを用いた高能率映像生成
- Authors: Zhiye Song, Steve Dai, Ben Keller, Brucek Khailany,
- Abstract要約: GalaxyDiTは、ガイダンスアライメントと、再利用メトリクスのための体系的なプロキシ選択を備えた、ビデオ生成を高速化するトレーニング不要の方法である。
我々は、Wan2.1-1.3BとWan2.1-14Bで1.87Times$と2.37times$のスピードアップを達成し、VBench-2.0ベンチマークでは0.97%と0.72%のダウンしか達成できなかった。
提案手法は, ピーク信号-雑音比 (PSNR) において, 5~10dB の先行技術アプローチを上回り, ベースモデルに優れた忠実さを保っている。
- 参考スコア(独自算出の注目度): 5.2424169748898555
- License:
- Abstract: Diffusion models have revolutionized video generation, becoming essential tools in creative content generation and physical simulation. Transformer-based architectures (DiTs) and classifier-free guidance (CFG) are two cornerstones of this success, enabling strong prompt adherence and realistic video quality. Despite their versatility and superior performance, these models require intensive computation. Each video generation requires dozens of iterative steps, and CFG doubles the required compute. This inefficiency hinders broader adoption in downstream applications. We introduce GalaxyDiT, a training-free method to accelerate video generation with guidance alignment and systematic proxy selection for reuse metrics. Through rank-order correlation analysis, our technique identifies the optimal proxy for each video model, across model families and parameter scales, thereby ensuring optimal computational reuse. We achieve $1.87\times$ and $2.37\times$ speedup on Wan2.1-1.3B and Wan2.1-14B with only 0.97% and 0.72% drops on the VBench-2.0 benchmark. At high speedup rates, our approach maintains superior fidelity to the base model, exceeding prior state-of-the-art approaches by 5 to 10 dB in peak signal-to-noise ratio (PSNR).
- Abstract(参考訳): 拡散モデルはビデオ生成に革命をもたらし、創造的なコンテンツ生成と物理シミュレーションに不可欠なツールとなった。
Transformer-based architectures (DiTs) と Classifier-free guidance (CFG) は、この成功の要点である。
汎用性と優れた性能にもかかわらず、これらのモデルは集中的な計算を必要とする。
各ビデオ生成には数十の反復ステップが必要で、CFGは必要な計算量を2倍にする。
この非効率さは、下流アプリケーションで広く採用されるのを妨げる。
トレーニング不要なビデオ生成手法であるGalaxyDiTを導入し,ガイダンスアライメントとシステマティックプロキシの選択を再利用メトリクスに適用する。
ランク順相関解析により、モデルファミリとパラメータスケールをまたいだ各ビデオモデルに対して最適なプロキシを同定し、最適な計算再利用を実現する。
We achieve $1.87\times$ and $2.37\times$ speedup on Wan2.1-1.3B and Wan2.1-14B with only 0.97% and 0.72% drops on the VBench-2.0 benchmark。
提案手法は, ピーク信号-雑音比(PSNR)において, 5~10dBの先行技術アプローチを上回り, ベースモデルに優れた忠実さを保っている。
関連論文リスト
- BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation [27.57431718095974]
本稿では,ビデオ推論のためのデータフリー共同学習フレームワークBLADEを紹介する。
異なるスケールで顕著な効率向上を示す。
短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは、我々のフレームワークはロバストな8.89倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-08-14T15:58:59Z) - Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。