論文の概要: Helios: Real Real-Time Long Video Generation Model
- arxiv url: http://arxiv.org/abs/2603.04379v1
- Date: Wed, 04 Mar 2026 18:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.458964
- Title: Helios: Real Real-Time Long Video Generation Model
- Title(参考訳): Helios:リアルタイムビデオ生成モデル
- Authors: Shenghai Yuan, Yuanyang Yin, Zongjian Li, Xinwei Huang, Xiao Yang, Li Yuan,
- Abstract要約: Heliosは、T2V、I2V、V2Vタスクをサポートする統一された入力表現を備えた14B自己回帰拡散モデルである。
Heliosは、ショートビデオとロングビデオの両方で先行手法より一貫して優れている。
コミュニティによるさらなる開発を支援するため、コード、ベースモデル、蒸留モデルをリリースする予定です。
- 参考スコア(独自算出の注目度): 33.34372252025333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Helios, the first 14B video generation model that runs at 19.5 FPS on a single NVIDIA H100 GPU and supports minute-scale generation while matching the quality of a strong baseline. We make breakthroughs along three key dimensions: (1) robustness to long-video drifting without commonly used anti-drifting heuristics such as self-forcing, error-banks, or keyframe sampling; (2) real-time generation without standard acceleration techniques such as KV-cache, sparse/linear attention, or quantization; and (3) training without parallelism or sharding frameworks, enabling image-diffusion-scale batch sizes while fitting up to four 14B models within 80 GB of GPU memory. Specifically, Helios is a 14B autoregressive diffusion model with a unified input representation that natively supports T2V, I2V, and V2V tasks. To mitigate drifting in long-video generation, we characterize typical failure modes and propose simple yet effective training strategies that explicitly simulate drifting during training, while eliminating repetitive motion at its source. For efficiency, we heavily compress the historical and noisy context and reduce the number of sampling steps, yielding computational costs comparable to -- or lower than -- those of 1.3B video generative models. Moreover, we introduce infrastructure-level optimizations that accelerate both inference and training while reducing memory consumption. Extensive experiments demonstrate that Helios consistently outperforms prior methods on both short- and long-video generation. We plan to release the code, base model, and distilled model to support further development by the community.
- Abstract(参考訳): Heliosは、1つのNVIDIA H100 GPU上で19.5 FPSで動作する最初の14Bビデオ生成モデルであり、強力なベースラインの品質に適合しながら、微小スケールの生成をサポートする。
我々は,1) 自己強制,エラーバンク,キーフレームサンプリングなどの一般的なアンチドリフトヒューリスティックを使わずに,長時間のドリフトに対する堅牢性,(2) KV-cache,スパース/線形アテンション,量子化といった標準加速度技術を使わずにリアルタイムに生成すること,3) 並列性やシャーディングフレームワークを使わずに,画像拡散スケールのバッチサイズを実現し,80GBのGPUメモリ内に最大4つの14Bモデルを実現すること,の3つの重要な側面を突破する。
具体的には、HeliosはT2V、I2V、V2Vタスクをネイティブにサポートする統一された入力表現を備えた14B自己回帰拡散モデルである。
長ビデオ生成時のドリフトを緩和するため,典型的故障モードを特徴付けるとともに,トレーニング中にドリフトを明示的にシミュレートする簡易かつ効果的なトレーニング戦略を提案する。
効率性のために、歴史的・騒々しい文脈を強く圧縮し、サンプリングステップの数を減らし、1.3Bビデオ生成モデルに匹敵する計算コストを得る。
さらに、メモリ消費を削減しつつ、推論とトレーニングの両方を高速化するインフラストラクチャレベルの最適化を導入する。
大規模な実験により、Heliosはショートビデオとロングビデオの両方で先行手法を一貫して上回っていることが示された。
コミュニティによるさらなる開発を支援するため、コード、ベースモデル、蒸留モデルをリリースする予定です。
関連論文リスト
- DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder [55.26098043655325]
DC-VideoGenは、事前訓練されたビデオ拡散モデルに適用することができる。
軽量な微調整を施した深部圧縮潜伏空間に適応することができる。
論文 参考訳(メタデータ) (2025-09-29T17:59:31Z) - SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer [116.17385614259574]
SANA-Videoは、720×1280の解像度と分長のビデオを効率よく生成できる小さな拡散モデルである。
2つのコア設計により、効率的な、効果的で、長いビデオ生成が保証されます。
コストの安いSANA-Videoは、現代の最先端の小さな拡散モデルと比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2025-09-29T12:28:09Z) - PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation [18.2095668161519]
Pusaは、一貫したビデオ拡散フレームワーク内で微細な時間的制御を可能にする、画期的なパラダイムである。
We set a new standard for image-to-video (I2V) generation, to achieve a VBench-I2V total score 87.32%。
この研究は、次世代のビデオ合成のためのスケーラブルで効率的で多用途なパラダイムを確立する。
論文 参考訳(メタデータ) (2025-07-22T00:09:37Z) - VideoMAR: Autoregressive Video Generatio with Continuous Tokens [33.906543515428424]
マスケベースの自己回帰モデルでは、連続空間における有望な画像生成能力が実証されている。
連続トークンを用いたデコーダのみの自己回帰画像-ビデオモデルである textbfVideoMAR を提案する。
VideoMARは以前の最先端(Cosmos I2V)よりはるかに少ないパラメータを必要とする。
論文 参考訳(メタデータ) (2025-06-17T04:08:18Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
我々は、ビデオには画像よりもはるかに冗長な情報が含まれており、非常に少ない動きでエンコードできると主張している。
我々は、映像を非常に圧縮された潜在空間に投影する画像条件付きVAEを設計し、コンテンツ画像に基づいてデコードする。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。