Fugu-MT 論文翻訳(概要): Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT

論文の概要: Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT

arxiv url: http://arxiv.org/abs/2406.18583v1
Date: Wed, 5 Jun 2024 17:53:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 05:40:31.458452
Title: Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT
Title（参考訳）: Lumina-Next:Next-DiTでLumina-T2Xをより強く高速に
Authors: Le Zhuo, Ruoyi Du, Han Xiao, Yangguang Li, Dongyang Liu, Rongjie Huang, Wenze Liu, Lirui Zhao, Fu-Yun Wang, Zhanyu Ma, Xu Luo, Zehan Wang, Kaipeng Zhang, Xiangyang Zhu, Si Liu, Xiangyu Yue, Dingning Liu, Wanli Ouyang, Ziwei Liu, Yu Qiao, Hongsheng Li, Peng Gao,
Abstract要約: 本稿では,Lumina-T2Xの改良版を提案する。これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
参考スコア（独自算出の注目度）: 120.39362661689333
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Lumina-T2X is a nascent family of Flow-based Large Diffusion Transformers that establishes a unified framework for transforming noise into various modalities, such as images and videos, conditioned on text instructions. Despite its promising capabilities, Lumina-T2X still encounters challenges including training instability, slow inference, and extrapolation artifacts. In this paper, we present Lumina-Next, an improved version of Lumina-T2X, showcasing stronger generation performance with increased training and inference efficiency. We begin with a comprehensive analysis of the Flag-DiT architecture and identify several suboptimal components, which we address by introducing the Next-DiT architecture with 3D RoPE and sandwich normalizations. To enable better resolution extrapolation, we thoroughly compare different context extrapolation methods applied to text-to-image generation with 3D RoPE, and propose Frequency- and Time-Aware Scaled RoPE tailored for diffusion transformers. Additionally, we introduced a sigmoid time discretization schedule to reduce sampling steps in solving the Flow ODE and the Context Drop method to merge redundant visual tokens for faster network evaluation, effectively boosting the overall sampling speed. Thanks to these improvements, Lumina-Next not only improves the quality and efficiency of basic text-to-image generation but also demonstrates superior resolution extrapolation capabilities and multilingual generation using decoder-based LLMs as the text encoder, all in a zero-shot manner. To further validate Lumina-Next as a versatile generative framework, we instantiate it on diverse tasks including visual recognition, multi-view, audio, music, and point cloud generation, showcasing strong performance across these domains. By releasing all codes and model weights, we aim to advance the development of next-generation generative AI capable of universal modeling.
Abstract（参考訳）: Lumina-T2Xは、フローベースの大規模拡散変換器の初期段階のファミリーであり、画像やビデオなどの様々なモダリティにノイズを変換する統一的なフレームワークを確立し、テキスト命令で条件付けされている。その有望な機能にもかかわらず、Lumina-T2Xは、トレーニング不安定、遅い推論、外挿アーティファクトなどの課題に直面している。本稿では,Lumina-T2Xの改良版であるLumina-Nextについて述べる。本稿では,Frag-DiTアーキテクチャの包括的解析から始め,Next-DiTアーキテクチャに3D RoPEとサンドイッチ正規化を導入することで,いくつかの部分最適化コンポーネントを同定する。より高分解能な外挿を実現するために,3D RoPEとテキスト・画像生成に適用された異なるコンテキスト外挿手法を徹底的に比較し,拡散トランスフォーマに適した周波数・時間対応スケール付き RoPE を提案する。さらに,フローODEとコンテキストドロップ法を解く際のサンプリングステップを削減するためのシグモイド時間離散化スケジュールを導入し,冗長な視覚トークンをマージしてネットワーク評価を高速化し,全体のサンプリング速度を効果的に向上させた。これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、デコーダベースのLCMをテキストエンコーダとして使い、優れた解像度外挿機能と多言語生成をゼロショットで実現している。汎用的な生成フレームワークとしてLumina-Nextをさらに検証するために、視覚認識、マルチビュー、オーディオ、音楽、ポイントクラウド生成など様々なタスクをインスタンス化し、これらの領域で強いパフォーマンスを示す。すべてのコードとモデルウェイトをリリースすることにより、ユニバーサルモデリングが可能な次世代生成AIの開発を進めることを目指している。

関連論文リスト

LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation [1.124958340749622]
視覚言語モデル (LVLM) は、モーダルな理解と指示の追従において強力な能力を示した。 LumiGenは、T2Iモデルの性能を高めるために設計された新しいLVLM拡張反復フレームワークである。 LumiGenは平均スコア3.08で、最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-08-05T20:53:43Z)
Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling [80.30976039119236]
Lumina-mGPT 2.0はスタンドアロンのデコーダのみの自己回帰モデルである。完全にスクラッチからトレーニングされ、制限のないアーキテクチャ設計とライセンスの自由を可能にする。それは最先端の拡散モデルと同等に生成品質を達成する。
論文参考訳（メタデータ） (2025-07-23T17:42:13Z)
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。 ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文参考訳（メタデータ） (2025-04-02T17:45:00Z)
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework [76.44331001702379]
Lumina-Image 2.0はテキストから画像を生成するフレームワークで、以前の作業と比べて大きな進歩を遂げている。統一アーキテクチャ(Unified Next-DiT)を採用し、テキストと画像トークンをジョイントシーケンスとして扱う。本稿では,T2I生成タスクに特化して設計された統一キャプションシステムUnified Captioner(UniCap)を紹介する。
論文参考訳（メタデータ） (2025-03-27T17:57:07Z)
TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [34.73820805875123]
TIDE (Temporal-aware Sparse Autoencoders for Interpretable Diffusion transformErs) は,DiTアクティベーション層内の時間的再構築を段階的に促進する新しいフレームワークである。 TIDEはスパースオートエンコーダ(SAE)とスパースボトルネック層を使用して、解釈可能かつ階層的な特徴を抽出する。提案手法は,1e-3の平均2乗誤差(MSE)とコサイン類似度(0.97。
論文参考訳（メタデータ） (2025-03-10T08:35:51Z)
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT [98.56372305225271]
Lumina-Nextは、Next-DiTによる画像生成において、例外的なパフォーマンスを実現している。 Lumina-VideoにはマルチスケールのNext-DiTアーキテクチャが組み込まれており、複数のパッチを共同で学習している。本稿では,Next-DiTに基づく音声合成モデルであるLumina-V2Aを提案する。
論文参考訳（メタデータ） (2025-02-10T18:58:11Z)
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文参考訳（メタデータ） (2024-10-27T16:28:28Z)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳（メタデータ） (2024-10-10T07:07:56Z)
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文参考訳（メタデータ） (2024-08-05T17:46:53Z)
FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文参考訳（メタデータ） (2024-08-02T04:13:38Z)
OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-06-14T13:16:18Z)
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers [69.96398489841116]
フローベース大拡散変圧器(Flag-DiT)のLumina-T2X系について紹介する。 Flag-DiTは、画像、ビデオ、マルチビュー3Dオブジェクト、テキスト命令で条件付けられたオーディオクリップにノイズを変換するための統一されたフレームワークである。これは、われわれのLumina-T2IモデルとLumina-T2Vモデルによる長い720pビデオで超高精細画像を作成するのに特に有益である。
論文参考訳（メタデータ） (2024-05-09T17:35:16Z)
TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文参考訳（メタデータ） (2024-03-27T19:52:55Z)
Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for Speech-to-Image Generation [8.26410341981427]
音声から画像への変換の目的は、音声信号から直接写実的な画像を生成することである。本稿では,Fusion-S2iGanと呼ばれる単一段階のフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-17T11:12:07Z)
Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文参考訳（メタデータ） (2022-12-22T09:05:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。