論文の概要: Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2405.05945v2
- Date: Wed, 15 May 2024 17:19:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 15:24:45.375631
- Title: Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers
- Title(参考訳): Lumina-T2X:フローベース大規模拡散変換器によるテキストの任意のモダリティ、解像度、持続時間への変換
- Authors: Peng Gao, Le Zhuo, Dongyang Liu, Ruoyi Du, Xu Luo, Longtian Qiu, Yuhang Zhang, Chen Lin, Rongjie Huang, Shijie Geng, Renrui Zhang, Junlin Xi, Wenqi Shao, Zhengkai Jiang, Tianshuo Yang, Weicai Ye, He Tong, Jingwen He, Yu Qiao, Hongsheng Li,
- Abstract要約: フローベース大拡散変圧器(Flag-DiT)のLumina-T2X系について紹介する。
Flag-DiTは、画像、ビデオ、マルチビュー3Dオブジェクト、テキスト命令で条件付けられたオーディオクリップにノイズを変換するための統一されたフレームワークである。
これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。
- 参考スコア(独自算出の注目度): 69.96398489841116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sora unveils the potential of scaling Diffusion Transformer for generating photorealistic images and videos at arbitrary resolutions, aspect ratios, and durations, yet it still lacks sufficient implementation details. In this technical report, we introduce the Lumina-T2X family - a series of Flow-based Large Diffusion Transformers (Flag-DiT) equipped with zero-initialized attention, as a unified framework designed to transform noise into images, videos, multi-view 3D objects, and audio clips conditioned on text instructions. By tokenizing the latent spatial-temporal space and incorporating learnable placeholders such as [nextline] and [nextframe] tokens, Lumina-T2X seamlessly unifies the representations of different modalities across various spatial-temporal resolutions. This unified approach enables training within a single framework for different modalities and allows for flexible generation of multimodal data at any resolution, aspect ratio, and length during inference. Advanced techniques like RoPE, RMSNorm, and flow matching enhance the stability, flexibility, and scalability of Flag-DiT, enabling models of Lumina-T2X to scale up to 7 billion parameters and extend the context window to 128K tokens. This is particularly beneficial for creating ultra-high-definition images with our Lumina-T2I model and long 720p videos with our Lumina-T2V model. Remarkably, Lumina-T2I, powered by a 5-billion-parameter Flag-DiT, requires only 35% of the training computational costs of a 600-million-parameter naive DiT. Our further comprehensive analysis underscores Lumina-T2X's preliminary capability in resolution extrapolation, high-resolution editing, generating consistent 3D views, and synthesizing videos with seamless transitions. We expect that the open-sourcing of Lumina-T2X will further foster creativity, transparency, and diversity in the generative AI community.
- Abstract(参考訳): Soraは、任意の解像度、アスペクト比、持続時間でフォトリアリスティックな画像やビデオを生成するためにDiffusion Transformerをスケールする可能性を公開しているが、実装の詳細は十分ではない。
本稿では,フローベースの大規模拡散変換器(Flag-DiT)のシリーズであるLumina-T2Xファミリについて,音声を画像,ビデオ,マルチビュー3Dオブジェクト,音声クリップに変換するための統合フレームワークとして紹介する。
遅延空間空間をトークン化し、[nextline]や[nextframe]トークンのような学習可能なプレースホルダーを組み込むことで、Lumina-T2Xは様々な空間時間分解の異なるモジュラリティの表現をシームレスに統一する。
この統一されたアプローチは、異なるモダリティのための単一のフレームワーク内でのトレーニングを可能にし、推論中に任意の解像度、アスペクト比、長さで柔軟なマルチモーダルデータの生成を可能にする。
RoPE、RMSNorm、フローマッチングといった高度な技術により、Frag-DiTの安定性、柔軟性、スケーラビリティが向上し、Lumina-T2Xのモデルは70億のパラメータをスケールし、コンテキストウィンドウを128Kトークンに拡張できる。
これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。
注目すべきは、Lumina-T2Iは5ビリオンパラメーターのFrag-DiTを搭載しており、600万パラメートルナイーブDiTのトレーニング計算コストの35%しか必要としていないことだ。
我々のより包括的な分析は、Lumina-T2Xの解像度外挿、高解像度の編集、一貫した3Dビューの生成、シームレスな遷移を伴うビデオの合成における予備的能力を示している。
Lumina-T2Xのオープンソース化によって、生成AIコミュニティの創造性、透明性、多様性がさらに向上することを期待しています。
関連論文リスト
- Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文 参考訳(メタデータ) (2024-06-05T17:53:26Z) - TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models [40.38379402600541]
TI2V-Zeroは、予め訓練されたテキスト・ツー・ビデオ(T2V)拡散モデルを、提供される画像に条件付けることができるゼロショット・チューニングフリーの手法である。
付加的な画像入力で映像生成を誘導するために,逆復調過程を変調する「繰り返しスライド」戦略を提案する。
TI2V-Zeroは、最新のオープンドメインTI2Vモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-04-25T03:21:11Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - VideoElevator: Elevating Video Generation Quality with Versatile
Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。
我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文 参考訳(メタデータ) (2024-03-08T16:44:54Z) - LatentMan: Generating Consistent Animated Characters using Image Diffusion Models [44.18315132571804]
テキスト・ツー・イメージ(T2I)拡散モデルに基づいて,アニメキャラクターの一貫した映像を生成するゼロショット手法を提案する。
提案手法は,既存のゼロショットT2V手法より,ピクセルワイドの一貫性とユーザ嗜好の観点からアニメーションキャラクターのビデオ生成に優れる。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。