論文の概要: BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
- arxiv url: http://arxiv.org/abs/2505.09568v1
- Date: Wed, 14 May 2025 17:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.543228
- Title: BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset
- Title(参考訳): BLIP3-o: 完全に統一されたマルチモーダルモデルのファミリー-アーキテクチャ、トレーニング、データセット
- Authors: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu,
- Abstract要約: 本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
- 参考スコア(独自算出の注目度): 140.1967962502411
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Unifying image understanding and generation has gained growing attention in recent research on multimodal models. Although design choices for image understanding have been extensively studied, the optimal model architecture and training recipe for a unified framework with image generation remain underexplored. Motivated by the strong potential of autoregressive and diffusion models for high-quality generation and scalability, we conduct a comprehensive study of their use in unified multimodal settings, with emphasis on image representations, modeling objectives, and training strategies. Grounded in these investigations, we introduce a novel approach that employs a diffusion transformer to generate semantically rich CLIP image features, in contrast to conventional VAE-based representations. This design yields both higher training efficiency and improved generative quality. Furthermore, we demonstrate that a sequential pretraining strategy for unified models-first training on image understanding and subsequently on image generation-offers practical advantages by preserving image understanding capability while developing strong image generation ability. Finally, we carefully curate a high-quality instruction-tuning dataset BLIP3o-60k for image generation by prompting GPT-4o with a diverse set of captions covering various scenes, objects, human gestures, and more. Building on our innovative model design, training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art unified multimodal models. BLIP3-o achieves superior performance across most of the popular benchmarks spanning both image understanding and generation tasks. To facilitate future research, we fully open-source our models, including code, model weights, training scripts, and pretraining and instruction tuning datasets.
- Abstract(参考訳): 画像理解と生成の統一は、近年のマルチモーダルモデルの研究で注目を集めている。
画像理解のための設計選択は広く研究されているが、画像生成を伴う統一フレームワークのための最適なモデルアーキテクチャとトレーニングレシピはいまだに未検討である。
高品質な生成と拡張性のための自己回帰モデルと拡散モデルの強い可能性によって、画像表現、モデリング目的、トレーニング戦略に重点を置いて、統合マルチモーダル設定におけるそれらの使用に関する包括的な研究を行う。
本研究では,従来のVAEに基づく表現とは対照的に,意味的にリッチなCLIP画像特徴を生成するために拡散変換器を用いた新しい手法を提案する。
この設計により、トレーニング効率が向上し、生成品質が向上する。
さらに,画像理解能力を維持しながら画像認識能力を向上させることにより,画像生成者に対する統合モデルファーストトレーニングの逐次事前学習の実践的優位性を示す。
最後に、GPT-4oに様々なシーン、オブジェクト、人間のジェスチャーなどを含む様々なキャプションのセットを挿入することにより、画像生成のための高品質な命令チューニングデータセットBLIP3o-60kを慎重にキュレートする。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
BLIP3-oは画像理解タスクと生成タスクの両方にまたがる一般的なベンチマークの多くにおいて、優れたパフォーマンスを実現している。
将来の研究を促進するために、私たちは、コード、モデルの重み付け、トレーニングスクリプト、事前トレーニングとチューニングのデータセットを含むモデルを、完全にオープンソースにしました。
関連論文リスト
- Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。
まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。
第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文 参考訳(メタデータ) (2024-09-30T04:59:12Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。