論文の概要: Aquarius: A Family of Industry-Level Video Generation Models for Marketing Scenarios
- arxiv url: http://arxiv.org/abs/2505.10584v1
- Date: Wed, 14 May 2025 13:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.176533
- Title: Aquarius: A Family of Industry-Level Video Generation Models for Marketing Scenarios
- Title(参考訳): Aquarius: 産業レベルのシナリオをマーケティングするためのビデオ生成モデル
- Authors: Huafeng Shi, Jianzhong Liang, Rongchang Xie, Xian Wu, Cheng Chen, Chang Liu,
- Abstract要約: 本稿では、マーケティングシナリオのための業界レベルのビデオ生成モデルであるAquariusを紹介する。
Aquariusは高忠実度、多アスペクト比、長期ビデオ合成において例外的な性能を示す。
Aquarius-Datapipe"という名のデータ処理フレームワーク全体をオープンソースにしようとしています。
- 参考スコア(独自算出の注目度): 30.314363181535118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report introduces Aquarius, a family of industry-level video generation models for marketing scenarios designed for thousands-xPU clusters and models with hundreds of billions of parameters. Leveraging efficient engineering architecture and algorithmic innovation, Aquarius demonstrates exceptional performance in high-fidelity, multi-aspect-ratio, and long-duration video synthesis. By disclosing the framework's design details, we aim to demystify industrial-scale video generation systems and catalyze advancements in the generative video community. The Aquarius framework consists of five components: Distributed Graph and Video Data Processing Pipeline: Manages tens of thousands of CPUs and thousands of xPUs via automated task distribution, enabling efficient video data processing. Additionally, we are about to open-source the entire data processing framework named "Aquarius-Datapipe". Model Architectures for Different Scales: Include a Single-DiT architecture for 2B models and a Multimodal-DiT architecture for 13.4B models, supporting multi-aspect ratios, multi-resolution, and multi-duration video generation. High-Performance infrastructure designed for video generation model training: Incorporating hybrid parallelism and fine-grained memory optimization strategies, this infrastructure achieves 36% MFU at large scale. Multi-xPU Parallel Inference Acceleration: Utilizes diffusion cache and attention optimization to achieve a 2.35x inference speedup. Multiple marketing-scenarios applications: Including image-to-video, text-to-video (avatar), video inpainting and video personalization, among others. More downstream applications and multi-dimensional evaluation metrics will be added in the upcoming version updates.
- Abstract(参考訳): このレポートでは、数千xPUクラスタ用に設計されたマーケティングシナリオと、数十億のパラメータを持つモデルのための、業界レベルのビデオ生成モデルのファミリーであるAquariusを紹介します。
効率的なエンジニアリングアーキテクチャとアルゴリズムの革新を活用して、Aquariusは高忠実度、多アスペクト比、長期ビデオ合成において例外的なパフォーマンスを示す。
フレームワークの設計の詳細を開示することにより,産業規模のビデオ生成システムをデミスティフィケートし,生成ビデオコミュニティの進歩を促進することを目指す。
Aquariusフレームワークは5つのコンポーネントで構成されている。 分散グラフとビデオデータ処理パイプライン: 数万のCPUと数千のxPUを自動タスク分散によって管理し、効率的なビデオデータ処理を可能にする。
さらに私たちは,“Aquarius-Datapipe”という名のデータ処理フレームワーク全体をオープンソースにしようとしています。
異なるスケールのためのモデルアーキテクチャ: 2BモデルのシングルDiTアーキテクチャと13.4BモデルのマルチモーダルDiTアーキテクチャを含み、マルチアスペクト比、マルチ解像度、マルチデュレーションビデオ生成をサポートする。
ビデオ生成モデルトレーニング用に設計された高性能インフラストラクチャ: ハイブリッド並列性とメモリ最適化戦略を組み込んだこのインフラストラクチャは、大規模に36%のMFUを達成する。
Multi-xPU並列推論高速化:拡散キャッシュとアテンション最適化を利用して2.35倍の推論高速化を実現する。
複数のマーケティング・シナリオ:イメージ・トゥ・ビデオ、テキスト・トゥ・ビデオ(アバター)、ビデオ・インペイント、ビデオ・パーソナライゼーションなど。
よりダウンストリームなアプリケーションと多次元評価メトリクスは、今後のバージョンアップデートで追加される予定である。
関連論文リスト
- Wan: Open and Advanced Large-Scale Video Generative Models [83.03603932233275]
Wanは、ビデオ生成の境界を推し進めるために設計された、ビデオファンデーションモデルのスイートである。
我々は、ソースコードやすべてのモデルを含む一連のWanをオープンソース化し、ビデオ生成コミュニティの成長を促進することを目的としています。
論文 参考訳(メタデータ) (2025-03-26T08:25:43Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - Open-Sora Plan: Open-Source Large Video Generation Model [48.475478021553755]
Open-Sora Planは,さまざまなユーザ入力に基づいて,望まれる高解像度ビデオを生成するための,大規模な生成モデルの提供を目的としたオープンソースプロジェクトである。
本プロジェクトは,Wavelet-Flow Variational Autoencoder,Joint Image-Video Skiparse Denoiser,各種コンディションコントローラなど,ビデオ生成プロセス全体のコンポーネントで構成されている。
我々のOpen-Sora Planは、効率的な思考から恩恵を受け、質的および定量的な評価において、印象的なビデオ生成結果を達成する。
論文 参考訳(メタデータ) (2024-11-28T14:07:45Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。