論文の概要: Alice v1: Distillation-Enhanced Video Generation Surpassing Closed-Source Models
- arxiv url: http://arxiv.org/abs/2605.08115v1
- Date: Mon, 27 Apr 2026 23:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.710835
- Title: Alice v1: Distillation-Enhanced Video Generation Surpassing Closed-Source Models
- Title(参考訳): Alice v1: クローズドソースモデルを超えた蒸留強化ビデオ生成
- Authors: Wang Xiaoyu, Phong Nguyen, Chen Zhao,
- Abstract要約: Alice v1は、スコア正規化による一貫性蒸留(rCM)による最先端の品質を実現する、オープンソースのビデオ生成モデルである。
rCMをベースとした蒸留は,教師のモデル品質を上回りうることを示す。
ビデオ生成におけるオープンな研究を促進するため、モデルウェイト、トレーニングコード、合成データパイプライン、評価スクリプトを全てリリースする。
- 参考スコア(独自算出の注目度): 10.021733791156516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wepresent Alice v1, a 14-billion parameter open-source video generation model that achieves state-of-the-art quality through consistency distillation with score regularization (rCM). Contrary to conventional distillation-which trades quality for speed-we demonstrate that rCM-based distillation can exceed teacher model quality. We attribute this to three mechanisms: (1) the score regularization term acts as a mode-seeking objective that concentrates probability mass on high-quality outputs rather than covering the full teacher distribution, (2) our targeted synthetic data pipeline with hard example mining provides training signal specifically for failure modes (physics, hands, faces) that the teacher handles inconsistently, and (3) consistency enforcement acts as implicit regularization, eliminating "lucky path" dependence on specific noise samples. Alice v1 generates 5-second 720p videos at 24fps in 4 denoising steps (~8 seconds on H100), a 7x speedup over the 50-step teacher while improving VBench score from 84.0 (Wan2.2) to 91.2. This surpasses both the teacher and closed-source systems including Veo3 (~90) and Sora2 (~88) on automated benchmarks, with competitive results in human preference studies. We release all model weights, training code, synthetic data pipelines, and evaluation scripts to advance open research in video generation.
- Abstract(参考訳): Wepresent Alice v1, a 14-billion parameter open-source video generation model that achieve a state-of-the-art quality through consistency distillation with score regularization (rCM)。
従来の蒸留法とは対照的に,rCMをベースとした蒸留法は,教師のモデル品質を上回ることが実証された。
本研究の目的は,(1) スコア正規化という用語が,教師の分布を網羅するのではなく,高品質なアウトプットに確率マスを集中させるモデムとして機能すること,(2) 教師が不整合に対処する障害モード(物理,手,顔)に特化したトレーニング信号を提供すること,(3) 整合性の強制が暗黙の正規化として機能すること,そして,特定のノイズサンプルに対する"ラッキーパス"依存を排除すること,の3つにある。
Alice v1は5秒の720pビデオを24fpsで4ステップ(H100で約8秒)で生成し、VBenchスコアを84.0(Wan2.2)から91.2に改善した。
これは、Veo3 (~90) や Sora2 (~88) といった教師とクローズドソースシステムの両方を自動ベンチマークで上回り、人間の選好研究において競合する結果をもたらす。
ビデオ生成におけるオープンな研究を促進するため、モデルウェイト、トレーニングコード、合成データパイプライン、評価スクリプトを全てリリースする。
関連論文リスト
- DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization [50.30051934609654]
本稿では,数段階のビデオ生成を実現するため,変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。
提案手法は10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。
1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
論文 参考訳(メタデータ) (2024-12-20T09:07:36Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation [106.42167050921718]
本稿では,ビデオ中の異常検出のための非常に高速なフレームレベルモデルを提案する。
複数の高精度なオブジェクトレベルの教師モデルから知識を抽出することで、異常を検出することを学ぶ。
提案モデルでは,これまで聞こえなかった1480 FPSの速度のため,速度と精度の最良のトレードオフを実現している。
論文 参考訳(メタデータ) (2022-11-28T17:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。