論文の概要: Lumina-Image 2.0: A Unified and Efficient Image Generative Framework
- arxiv url: http://arxiv.org/abs/2503.21758v1
- Date: Thu, 27 Mar 2025 17:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 18:49:11.64825
- Title: Lumina-Image 2.0: A Unified and Efficient Image Generative Framework
- Title(参考訳): Lumina-Image 2.0: 統一的で効率的な画像生成フレームワーク
- Authors: Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao,
- Abstract要約: Lumina-Image 2.0はテキストから画像を生成するフレームワークで、以前の作業と比べて大きな進歩を遂げている。
統一アーキテクチャ(Unified Next-DiT)を採用し、テキストと画像トークンをジョイントシーケンスとして扱う。
本稿では,T2I生成タスクに特化して設計された統一キャプションシステムUnified Captioner(UniCap)を紹介する。
- 参考スコア(独自算出の注目度): 76.44331001702379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Lumina-Image 2.0, an advanced text-to-image generation framework that achieves significant progress compared to previous work, Lumina-Next. Lumina-Image 2.0 is built upon two key principles: (1) Unification - it adopts a unified architecture (Unified Next-DiT) that treats text and image tokens as a joint sequence, enabling natural cross-modal interactions and allowing seamless task expansion. Besides, since high-quality captioners can provide semantically well-aligned text-image training pairs, we introduce a unified captioning system, Unified Captioner (UniCap), specifically designed for T2I generation tasks. UniCap excels at generating comprehensive and accurate captions, accelerating convergence and enhancing prompt adherence. (2) Efficiency - to improve the efficiency of our proposed model, we develop multi-stage progressive training strategies and introduce inference acceleration techniques without compromising image quality. Extensive evaluations on academic benchmarks and public text-to-image arenas show that Lumina-Image 2.0 delivers strong performances even with only 2.6B parameters, highlighting its scalability and design efficiency. We have released our training details, code, and models at https://github.com/Alpha-VLLM/Lumina-Image-2.0.
- Abstract(参考訳): Lumina-Image 2.0は先進的なテキスト・画像生成フレームワークであり、これまでのLumina-Nextと比べて大きな進歩を遂げている。
統一 - 統一アーキテクチャ(Unified Next-DiT)を採用し、テキストと画像トークンをジョイントシーケンスとして扱い、自然な相互モーダルインタラクションを可能にし、シームレスなタスク拡張を可能にする。
さらに、高品質なキャプタは意味的に整合したテキストイメージのトレーニングペアを提供することができるため、T2I生成タスク用に特別に設計された統一キャプタシステムUnified Captioner(UniCap)を導入する。
UniCapは、包括的で正確なキャプションを生成し、収束を加速し、迅速な定着を促進する。
2)効率性 - 提案したモデルの効率性を改善するため,多段階進行訓練戦略を開発し,画像品質を損なうことなく推論加速技術を導入する。
学術ベンチマークとパブリックテキスト・ツー・イメージ・アリーナの広範囲な評価によると、Lumina-Image 2.0は2.6Bのパラメータだけで強力なパフォーマンスを実現しており、スケーラビリティと設計効率を強調している。
トレーニングの詳細、コード、モデルをhttps://github.com/Alpha-VLLM/Lumina-Image-2.0でリリースしました。
関連論文リスト
- VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning [40.75264235359017]
VARGPT-v1.1は高度な統合視覚自己回帰モデルである。
このモデルは、視覚的理解のための次世代予測と画像合成のための次世代生成という2つのパラダイムを保存している。
マルチモーダル理解とテキスト・ツー・イメージ・インストラクション・フォロータスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-04-03T18:06:28Z) - ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis [18.876109299162138]
特殊設計されたセマンティックビジョンランゲージ統合エキスパート(Semantic Vision-Language Integration Expert, SemVIE)を組み込んだ,T2I世代のための新しいフレームワークであるMARSを紹介する。
この革新的なコンポーネントは、言語情報と視覚情報を独立に処理し、ビジュアルコンポーネントを微調整しながらテキストコンポーネントを凍結することにより、事前訓練されたLCMを統合する。
MARSはSD1.5に必要なGPU日のうち9%しか必要としないが、様々なベンチマークで顕著な結果が得られる。
論文 参考訳(メタデータ) (2024-07-10T12:52:49Z) - Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT [120.39362661689333]
本稿では,Lumina-T2Xの改良版を提案する。
これらの改善により、Lumina-Nextは基本的なテキスト・ツー・イメージ生成の品質と効率を向上するだけでなく、優れた解像度の補間能力も示している。
論文 参考訳(メタデータ) (2024-06-05T17:53:26Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。