論文の概要: Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
- arxiv url: http://arxiv.org/abs/2408.02657v1
- Date: Mon, 5 Aug 2024 17:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 12:56:48.512627
- Title: Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
- Title(参考訳): Lumina-mGPT:多モード生成事前学習によるフレキシブルなフォトリアリスティックテキスト・画像生成
- Authors: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao,
- Abstract要約: ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
- 参考スコア(独自算出の注目度): 48.98105914356609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. Unlike existing autoregressive image generation approaches, Lumina-mGPT employs a pretrained decoder-only transformer as a unified framework for modeling multimodal token sequences. Our key insight is that a simple decoder-only transformer with multimodal Generative PreTraining (mGPT), utilizing the next-token prediction objective on massive interleaved text-image sequences, can learn broad and general multimodal capabilities, thereby illuminating photorealistic text-to-image generation. Building on these pretrained models, we propose Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text pairs to fully unlock their potential for high-aesthetic image synthesis at any resolution while maintaining their general multimodal capabilities. Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT), transforming Lumina-mGPT into a foundation model that seamlessly achieves omnipotent task unification. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like flexible text-to-image generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multiturn visual question answering. Additionally, we analyze the differences and similarities between diffusion-based and autoregressive methods in a direct comparison.
- Abstract(参考訳): 本稿では,多目的自己回帰モデルであるLumina-mGPTについて述べる。
既存の自己回帰画像生成アプローチとは異なり、Lumina-mGPTは、マルチモーダルトークンシーケンスをモデル化するための統一フレームワークとして、事前訓練されたデコーダのみの変換器を使用している。
我々のキーとなる洞察は、多モード生成前処理(mGPT)を備えた単純なデコーダのみの変換器で、大規模なインターリーブされたテキスト画像列の次トーケン予測目標を利用して、広範かつ汎用的なマルチモーダル能力を学習し、フォトリアリスティックなテキスト画像生成を照らし出すことができることである。
これらの事前訓練されたモデルに基づいて、高品質な画像テキストペア上でのフレキシブルプログレッシブ・スーパービジョン・ファインタニング(FP-SFT)を提案する。
さらに,Ominiponent Supervised Finetuning (Omni-SFT)を導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
結果として得られたモデルは、フレキシブルテキスト・ツー・イメージ生成や制御可能な生成のような視覚生成タスク、セグメンテーションや深さ推定のような視覚認識タスク、マルチターン視覚質問応答のような視覚言語タスクなど、多目的なマルチモーダル機能を示す。
さらに,拡散法と自己回帰法の違いと類似性を直接比較して解析する。
関連論文リスト
- From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.108694010274988]
本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
本手法は,テキストのみの大規模言語モデルで使用されるトークン化戦略を反映して,構造的事前情報を画像トークンに直接組み込む。
論文 参考訳(メタデータ) (2024-10-03T02:34:31Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。
提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文 参考訳(メタデータ) (2024-07-25T06:10:33Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。