論文の概要: BLIP3o-NEXT: Next Frontier of Native Image Generation
- arxiv url: http://arxiv.org/abs/2510.15857v1
- Date: Fri, 17 Oct 2025 17:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.735127
- Title: BLIP3o-NEXT: Next Frontier of Native Image Generation
- Title(参考訳): BLIP3o-NEXT: ネイティブ画像生成の次のフロンティア
- Authors: Jiuhai Chen, Le Xue, Zhiyang Xu, Xichen Pan, Shusheng Yang, Can Qin, An Yan, Honglu Zhou, Zeyuan Chen, Lifu Huang, Tianyi Zhou, Junnan Li, Silvio Savarese, Caiming Xiong, Ran Xu,
- Abstract要約: 本稿では,ネイティブ画像生成の次のフロンティアであるBLIP3シリーズにおいて,完全にオープンな基盤モデルBLIP3oを提案する。
BLIP3oは単一のアーキテクチャで画像生成と画像編集を統一し、強力な画像生成と画像編集機能を示す。
- 参考スコア(独自算出の注目度): 113.25832679864631
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present BLIP3o-NEXT, a fully open-source foundation model in the BLIP3 series that advances the next frontier of native image generation. BLIP3o-NEXT unifies text-to-image generation and image editing within a single architecture, demonstrating strong image generation and image editing capabilities. In developing the state-of-the-art native image generation model, we identify four key insights: (1) Most architectural choices yield comparable performance; an architecture can be deemed effective provided it scales efficiently and supports fast inference; (2) The successful application of reinforcement learning can further push the frontier of native image generation; (3) Image editing still remains a challenging task, yet instruction following and the consistency between generated and reference images can be significantly enhanced through post-training and data engine; (4) Data quality and scale continue to be decisive factors that determine the upper bound of model performance. Building upon these insights, BLIP3o-NEXT leverages an Autoregressive + Diffusion architecture in which an autoregressive model first generates discrete image tokens conditioned on multimodal inputs, whose hidden states are then used as conditioning signals for a diffusion model to generate high-fidelity images. This architecture integrates the reasoning strength and instruction following of autoregressive models with the fine-detail rendering ability of diffusion models, achieving a new level of coherence and realism. Extensive evaluations of various text-to-image and image-editing benchmarks show that BLIP3o-NEXT achieves superior performance over existing models.
- Abstract(参考訳): 本稿では,ネイティブ画像生成の次のフロンティアであるBLIP3シリーズの完全なオープンソース基盤モデルであるBLIP3o-NEXTを提案する。
BLIP3o-NEXTは単一のアーキテクチャで画像生成と画像編集を統一し、強力な画像生成と画像編集機能を示す。
最先端のネイティブ画像生成モデルを開発する際には,(1)ほとんどのアーキテクチャ選択が同等の性能を得る,(2)効率的にスケールし,高速推論をサポートするアーキテクチャとみなす,(2)強化学習を成功させることで,ネイティブ画像生成のフロンティアをさらに推し進めることができる,(3)画像編集は依然として困難な課題であり,(3)後処理とデータエンジンによって生成された画像と参照画像の一貫性を著しく向上させることができる,(4)データ品質とスケールは,モデルパフォーマンスの上限を決定する決定的要因であり続ける,という4つの重要な知見が示される。
これらの知見に基づいて、BLIP3o-NEXTは自己回帰+拡散アーキテクチャを利用して、まず自己回帰モデルがマルチモーダル入力に条件付けされた離散画像トークンを生成し、その隠れ状態が拡散モデルの条件付け信号として使われ、高忠実度画像を生成する。
このアーキテクチャは、自己回帰モデルの推論強度と命令を拡散モデルの細部レンダリング能力と統合し、新しいレベルのコヒーレンスとリアリズムを達成する。
様々なテキスト・画像・画像編集ベンチマークの大規模な評価は、BLIP3o-NEXTが既存のモデルよりも優れた性能を発揮することを示している。
関連論文リスト
- BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (2025-05-14T17:11:07Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。
まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。
第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文 参考訳(メタデータ) (2024-09-30T04:59:12Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。