論文の概要: Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
- arxiv url: http://arxiv.org/abs/2507.17801v1
- Date: Wed, 23 Jul 2025 17:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.325061
- Title: Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
- Title(参考訳): Lumina-mGPT 2.0: スタンドアロン自動回帰画像モデリング
- Authors: Yi Xin, Juncheng Yan, Qi Qin, Zhen Li, Dongyang Liu, Shicheng Li, Victor Shea-Jay Huang, Yupeng Zhou, Renrui Zhang, Le Zhuo, Tiancheng Han, Xiaoqing Sun, Siqi Luo, Mengmeng Wang, Bin Fu, Yuewen Cao, Hongsheng Li, Guangtao Zhai, Xiaohong Liu, Yu Qiao, Peng Gao,
- Abstract要約: Lumina-mGPT 2.0はスタンドアロンのデコーダのみの自己回帰モデルである。
完全にスクラッチからトレーニングされ、制限のないアーキテクチャ設計とライセンスの自由を可能にする。
それは最先端の拡散モデルと同等に生成品質を達成する。
- 参考スコア(独自算出の注目度): 80.30976039119236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Lumina-mGPT 2.0, a stand-alone, decoder-only autoregressive model that revisits and revitalizes the autoregressive paradigm for high-quality image generation and beyond. Unlike existing approaches that rely on pretrained components or hybrid architectures, Lumina-mGPT 2.0 is trained entirely from scratch, enabling unrestricted architectural design and licensing freedom. It achieves generation quality on par with state-of-the-art diffusion models such as DALL-E 3 and SANA, while preserving the inherent flexibility and compositionality of autoregressive modeling. Our unified tokenization scheme allows the model to seamlessly handle a wide spectrum of tasks-including subject-driven generation, image editing, controllable synthesis, and dense prediction-within a single generative framework. To further boost usability, we incorporate efficient decoding strategies like inference-time scaling and speculative Jacobi sampling to improve quality and speed, respectively. Extensive evaluations on standard text-to-image benchmarks (e.g., GenEval, DPG) demonstrate that Lumina-mGPT 2.0 not only matches but in some cases surpasses diffusion-based models. Moreover, we confirm its multi-task capabilities on the Graph200K benchmark, with the native Lumina-mGPT 2.0 performing exceptionally well. These results position Lumina-mGPT 2.0 as a strong, flexible foundation model for unified multimodal generation. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-mGPT-2.0.
- Abstract(参考訳): 本稿では,高画質画像生成などの自己回帰パラダイムを再検討し,再活性化するスタンドアロンデコーダのみの自己回帰モデルであるLumina-mGPT 2.0を提案する。
事前訓練されたコンポーネントやハイブリッドアーキテクチャに依存する既存のアプローチとは異なり、Lumina-mGPT 2.0はゼロから完全に訓練されており、制約のないアーキテクチャ設計とライセンスの自由を可能にする。
DALL-E 3やSANAのような最先端の拡散モデルと同等に生成品質を達成し、自己回帰モデリングの固有の柔軟性と構成性を保っている。
我々の統合トークン化方式により、単一の生成フレームワークを用いて、主観的生成、画像編集、制御可能な合成、および密度予測を含む幅広いタスクをシームレスに処理できる。
ユーザビリティをさらに向上するため,推測時間スケーリングや投機的Jacodiサンプリングといった効率的な復号化戦略を取り入れて,それぞれの品質とスピードを向上させる。
標準的なテキストと画像のベンチマーク(例: GenEval, DPG)の大規模な評価は、Lumina-mGPT 2.0が一致しただけでなく、拡散ベースモデルを上回る場合もあることを証明している。
さらに、Graph200Kベンチマークでマルチタスク機能を確認し、ネイティブのLumina-mGPT 2.0は非常によく機能する。
これらの結果は、Lumina-mGPT 2.0を統一マルチモーダル生成のための強力なフレキシブル基盤モデルとして位置づけた。
トレーニングの詳細、コード、モデルをhttps://github.com/Alpha-VLLM/Lumina-mGPT-2.0でリリースしました。
関連論文リスト
- Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。
提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。
ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - DanceGRPO: Unleashing GRPO on Visual Generation [36.36813831536346]
本稿では,グループ相対政策最適化を視覚生成パラダイムに適用する最初の統合フレームワークであるDanceGRPOを紹介する。
我々は、HPS-v2.1、CLIP Score、VideoAlign、GenEvalなどのベンチマークでベースラインを最大181%上回る、一貫性と実質的な改善を示す。
本研究では,DanceGRPOを視覚生成におけるヒューマンフィードバックタスクからの強化学習のスケールアップのための堅牢で汎用的なソリューションとして確立し,強化学習と視覚合成の調和に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-05-12T17:59:34Z) - Lumina-Image 2.0: A Unified and Efficient Image Generative Framework [76.44331001702379]
Lumina-Image 2.0はテキストから画像を生成するフレームワークで、以前の作業と比べて大きな進歩を遂げている。
統一アーキテクチャ(Unified Next-DiT)を採用し、テキストと画像トークンをジョイントシーケンスとして扱う。
本稿では,T2I生成タスクに特化して設計された統一キャプションシステムUnified Captioner(UniCap)を紹介する。
論文 参考訳(メタデータ) (2025-03-27T17:57:07Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [49.04935506942202]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
マルチモーダル生成PreTraining (mGPT) を初期化することにより、デコーダのみの自己回帰(AR)モデルが、現代の拡散モデルに匹敵する画像生成性能を実現できることを示す。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文 参考訳(メタデータ) (2024-06-05T17:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。