論文の概要: PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation
- arxiv url: http://arxiv.org/abs/2507.16116v1
- Date: Tue, 22 Jul 2025 00:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.911107
- Title: PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation
- Title(参考訳): PUSA V1.0: ベクトル時間適応による500ドルのトレーニングコストでWan-I2Vを通過
- Authors: Yaofang Liu, Yumeng Ren, Aitor Artola, Yuxuan Hu, Xiaodong Cun, Xiaotong Zhao, Alan Zhao, Raymond H. Chan, Suiyun Zhang, Rui Liu, Dandan Tu, Jean-Michel Morel,
- Abstract要約: Pusaは、一貫したビデオ拡散フレームワーク内で微細な時間的制御を可能にする、画期的なパラダイムである。
We set a new standard for image-to-video (I2V) generation, to achieve a VBench-I2V total score 87.32%。
この研究は、次世代のビデオ合成のためのスケーラブルで効率的で多用途なパラダイムを確立する。
- 参考スコア(独自算出の注目度): 18.2095668161519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of video diffusion models has been hindered by fundamental limitations in temporal modeling, particularly the rigid synchronization of frame evolution imposed by conventional scalar timestep variables. While task-specific adaptations and autoregressive models have sought to address these challenges, they remain constrained by computational inefficiency, catastrophic forgetting, or narrow applicability. In this work, we present Pusa, a groundbreaking paradigm that leverages vectorized timestep adaptation (VTA) to enable fine-grained temporal control within a unified video diffusion framework. Besides, VTA is a non-destructive adaptation, which means it fully preserves the capabilities of the base model. By finetuning the SOTA Wan2.1-T2V-14B model with VTA, we achieve unprecedented efficiency -- surpassing the performance of Wan-I2V-14B with $\leq$ 1/200 of the training cost (\$500 vs. $\geq$ \$100,000) and $\leq$ 1/2500 of the dataset size (4K vs. $\geq$ 10M samples). Pusa not only sets a new standard for image-to-video (I2V) generation, achieving a VBench-I2V total score of 87.32\% (vs. 86.86\% of Wan-I2V-14B), but also unlocks many zero-shot multi-task capabilities such as start-end frames and video extension -- all without task-specific training. Meanwhile, Pusa can still perform text-to-video generation. Mechanistic analyses reveal that our approach preserves the foundation model's generative priors while surgically injecting temporal dynamics, avoiding the combinatorial explosion inherent to vectorized timesteps. This work establishes a scalable, efficient, and versatile paradigm for next-generation video synthesis, democratizing high-fidelity video generation for research and industry alike. Code is open-sourced at https://github.com/Yaofang-Liu/Pusa-VidGen
- Abstract(参考訳): ビデオ拡散モデルの急速な進歩は、時間的モデリングにおける基本的な制限、特に従来のスカラー時間ステップ変数によって課されるフレーム進化の厳密な同期によって妨げられている。
タスク固有の適応と自己回帰モデルはこれらの課題に対処しようとするが、それらは計算の非効率性、破滅的な忘れ込み、狭い適用性によって制約される。
本稿では,ベクトル化タイムステップ適応(VTA)を利用して,映像拡散フレームワーク内での微細な時間的制御を可能にする,画期的なパラダイムであるPusaを提案する。
さらに、VTAは非破壊的な適応であり、ベースモデルの能力を完全に保存することを意味する。
SOTA Wan2.1-T2V-14BモデルをVTAで微調整することで、Wan-I2V-14Bのパフォーマンスを1/200のトレーニングコスト($500対$\geq$$100,000)とデータセットサイズ(4K対$\geq$10Mサンプル)で上回り、前例のない効率を実現します。
Pusaはイメージ・ツー・ビデオ(I2V)生成の新しい標準を設定するだけでなく、VBench-I2Vトータルスコア87.32\%(vs)を達成した。
Wan-I2V-14Bの86.86\%だが、同時に、終了フレームやビデオ拡張など、多くのゼロショットマルチタスク機能を、タスク固有のトレーニングなしでアンロックする。
一方、Pusaはテキスト・ビデオ・ジェネレーションを実行できる。
メカニカル・アナリシス解析により,本手法は時間的ダイナミックスを外科的に注入しながら基礎モデルの生成履歴を保存し,ベクトル化された時間経過に固有の組合せ的爆発を避けることができることがわかった。
この研究は、次世代のビデオ合成のためのスケーラブルで効率的で多用途なパラダイムを確立し、研究や産業のための高忠実なビデオ生成を民主化する。
コードはhttps://github.com/Yaofang-Liu/Pusa-VidGenでオープンソース化される
関連論文リスト
- Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers [22.349130691342687]
ビデオ拡散変換器 (vDiT) は, テキスト・ビデオ生成において顕著な進歩を遂げているが, その高い計算要求は, 実用的展開において大きな課題を呈している。
本稿では,vDiTをベースとしたビデオ生成において,ほぼ最適設定を検索する自動フレームワークであるASTRAEAを紹介する。
論文 参考訳(メタデータ) (2025-06-05T14:41:38Z) - Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models [34.131515004434846]
我々は,事前学習した映像拡散モデルを条件付き生成タスクに適用するための効率的なアプローチであるTIC-FT(Temporal In-Context Fine-Tuning)を導入する。
TIC-FTはアーキテクチャの変更を必要とせず、10-30のトレーニングサンプルで高いパフォーマンスを実現している。
我々は,CagVideoX-5B や Wan-14B といった大規模ベースモデルを用いて,映像映像生成や映像映像生成など,様々なタスクにまたがる手法を検証する。
論文 参考訳(メタデータ) (2025-06-01T12:57:43Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Temporally-Adaptive Models for Efficient Video Understanding [36.413570840293005]
この研究は、時間次元に沿った適応的なウェイトキャリブレーションが、ビデオの複雑な時間力学をモデル化するための効率的な方法であることを示している。
具体的には、TAdaConvは、各フレームの畳み込み重みを、その局所的および大域的時間的文脈に応じて調整することにより、時間的モデリング能力を備えた空間的畳み込みを増強する。
時間的モデリングの既存の操作と比較して、TAdaConvは空間分解能よりも次元が桁違いに小さい特徴ではなく、畳み込みカーネル上で動作するので、より効率的である。
論文 参考訳(メタデータ) (2023-08-10T17:35:47Z) - VA-RED$^2$: Video Adaptive Redundancy Reduction [64.75692128294175]
我々は,入力依存の冗長性低減フレームワークva-red$2$を提案する。
ネットワークの重み付けと協調して適応ポリシーを共有重み付け機構を用いて微分可能な方法で学習する。
私たちのフレームワークは、最先端の方法と比較して、計算(FLOP)の20% - 40%$削減を達成します。
論文 参考訳(メタデータ) (2021-02-15T22:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。