論文の概要: FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space
- arxiv url: http://arxiv.org/abs/2602.02092v1
- Date: Mon, 02 Feb 2026 13:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.172113
- Title: FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space
- Title(参考訳): FSVideo:高速ビデオ拡散モデル
- Authors: FSVideo Team, Qingyu Chen, Zhiyuan Fang, Haibin Huang, Xinwei Huang, Tong Jin, Minxuan Lin, Bo Liu, Celong Liu, Chongyang Ma, Xing Mei, Xiaohui Shen, Yaojie Shen, Fuwen Tan, Angtian Wang, Xiao Yang, Yiding Yang, Jiamin Yuan, Lingxi Zhang, Yuxin Zhang,
- Abstract要約: 本稿では,高速トランスフォーマーによる画像間拡散(I2V)フレームワークFSVideoを紹介する。
私たちは、以下の重要なコンポーネントの上にフレームワークを構築します。
圧縮された遅延空間を持つ新しいビデオオートエンコーダ。
新しいレイヤメモリ設計による拡散トランスフォーマー(DIT)アーキテクチャ。
数ステップのDITアップサンプラーによるマルチレゾリューション生成戦略による映像の忠実度向上
- 参考スコア(独自算出の注目度): 40.768706429574074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space ($64\times64\times4$ spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.
- Abstract(参考訳): 本稿では,高速トランスフォーマーによる画像間拡散(I2V)フレームワークFSVideoを紹介する。
私たちは、以下の重要なコンポーネントの上にフレームワークを構築します。
一 高度に圧縮された潜伏空間(64\times64\times4$空間時間ダウンサンプリング比)を有する新しいビデオオートエンコーダで、競争力のある復元品質を達成すること。
2)DIT内の層間情報フローとコンテキスト再利用を強化するための新しいレイヤメモリ設計を備えた拡散トランスフォーマー(DIT)アーキテクチャ
3.ビデオの忠実度を高めるため,数ステップのDITアップサンプラーによるマルチレゾリューション生成戦略。
最終モデルは14BのDITベースモデルと14BのDITアップサンプラーを含んでおり、他の人気のあるオープンソースモデルと競合する性能を実現し、桁違いに高速である。
本報告では、モデル設計とトレーニング戦略について論じる。
関連論文リスト
- Hierarchical Vector-Quantized Latents for Perceptual Low-Resolution Video Compression [1.332091725929965]
低解像度ビデオのコンパクトかつ高忠実な潜在表現を生成するために設計されたマルチスケールベクトル量子変分オートコーダ(MS-VQ-VAE)を提案する。
我々のアーキテクチャは、VQ-VAE-2フレームワークを指数展開設定に拡張し、3次元残差畳み込みで構築された2段階の潜伏構造を導入している。
提案フレームワークは、リアルタイムストリーミング、モバイル分析、CDNレベルのストレージ最適化など、帯域幅に敏感なシナリオにおけるスケーラブルなビデオ圧縮に適している。
論文 参考訳(メタデータ) (2025-12-31T01:07:17Z) - CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - LeanVAE: An Ultra-Efficient Reconstruction VAE for Video Diffusion Models [17.29580459404157]
本稿では,斬新で高効率なビデオVAEフレームワークLeanVAEを提案する。
我々のモデルは最大50倍のFLOPと44倍高速な推論速度を提供する。
ビデオ再生・生成におけるLeanVAEの優位性を検証した。
論文 参考訳(メタデータ) (2025-03-18T14:58:59Z) - Toward Lightweight and Fast Decoders for Diffusion Models in Image and Video Generation [0.0]
大きな変分オートエンコーダデコーダは、生成を遅くし、かなりのGPUメモリを消費することができる。
軽量なVision Transformer と Taming Transformer アーキテクチャを用いたカスタムトレーニングデコーダを提案する。
COCO 2017では、画像生成の全体的なスピードアップが最大15%、サブモジュールでのデコーディングが最大20倍、ビデオタスクのUCF-101がさらに向上している。
論文 参考訳(メタデータ) (2025-03-06T16:21:49Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Photorealistic Video Generation with Diffusion Models [44.95407324724976]
W.A.L.T.は拡散モデリングによるビデオ生成のためのトランスフォーマーベースのアプローチである。
我々は因果エンコーダを用いて、統一された潜在空間内で画像とビデオを共同で圧縮し、モダリティ間のトレーニングと生成を可能にする。
また,基本潜時ビデオ拡散モデルと2つのビデオ超解像拡散モデルからなるテキスト・ビデオ生成タスクのための3つのモデルのカスケードをトレーニングし,毎秒8ドルフレームで512倍の解像度の動画を生成する。
論文 参考訳(メタデータ) (2023-12-11T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。