論文の概要: Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
- arxiv url: http://arxiv.org/abs/2408.02657v3
- Date: Thu, 24 Apr 2025 16:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.913423
- Title: Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
- Title(参考訳): Lumina-mGPT:多モード生成事前学習によるフレキシブルなフォトリアリスティックテキスト・画像生成
- Authors: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yi Xin, Xinyue Li, Qi Qin, Yu Qiao, Hongsheng Li, Peng Gao,
- Abstract要約: ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
マルチモーダル生成PreTraining (mGPT) を初期化することにより、デコーダのみの自己回帰(AR)モデルが、現代の拡散モデルに匹敵する画像生成性能を実現できることを示す。
- 参考スコア(独自算出の注目度): 49.04935506942202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. By initializing from multimodal Generative PreTraining (mGPT), we demonstrate that decoder-only Autoregressive (AR) model can achieve image generation performance comparable to modern diffusion models with high efficiency through Flexible Progressive Supervised Fine-tuning (FP-SFT). Equipped with our proposed Unambiguous image Representation (UniRep), Lumina-mGPT can flexibly generate high-quality images of varying aspect ratios. Building on the strong image generation capabilities, we further explore Ominiponent Supervised Fine-tuning (Omni-SFT), an initial attempt to elevate Lumina-mGPT into a unified multi-modal generalist. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like text-to-image/multiview generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multi-turn visual question answering, showing the rosy potential of the technical direction. Codes and checkpoints are available at https://github.com/Alpha-VLLM/Lumina-mGPT.
- Abstract(参考訳): 本稿では,多目的自己回帰モデルであるLumina-mGPTについて述べる。
マルチモーダル生成PreTraining (mGPT) を初期化することにより、フレキシブル・プログレッシブ・スーパービジョン・ファインチューニング (FP-SFT) により、高効率の近代拡散モデルに匹敵する、デコーダのみの自己回帰(AR)モデルが画像生成性能を実現することを示した。
提案したUnambiguous Image Representation (UniRep)により,Lumina-mGPTは様々なアスペクト比の高品質な画像を柔軟に生成できる。
強い画像生成能力に基づいて、Lumina-mGPTを統一多モードジェネラリストに拡張する最初の試みであるOminiponent Supervised Fine-tuning (Omni-SFT)を探索する。
得られたモデルは、テキスト・ツー・イメージ・マルチビュー生成や制御可能な生成のような視覚生成タスク、セグメンテーションや深さ推定のような視覚認識タスク、多ターン視覚質問応答のような視覚言語タスクなど、多目的なマルチモーダル機能を示す。
コードとチェックポイントはhttps://github.com/Alpha-VLLM/Lumina-mGPTで確認できる。
関連論文リスト
- MINT: Multi-modal Chain of Thought in Unified Generative Models for Enhanced Image Generation [38.517814177255765]
画像生成の強化のために,MINTを導入し,マルチモーダル・シンキング・オブ・シンキング (MCoT) を生かした,革新的統一的生成モデルを提案する。
本稿では,MCoT学習パラダイムを提案する。このパラダイムは,画像生成に特化して設計されたマルチモーダル思考,推論,リフレクションに対するステップバイステップアプローチである。
MINTは、テキスト・トゥ・イメージ(T2I)と画像・トゥ・テキスト(I2T)タスクの複数のベンチマークで優れたパフォーマンスを示すことが検証されている。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z) - Natural Language Supervision for Low-light Image Enhancement [0.0]
画像に対応するテキストから特徴マップを学習する自然言語スーパービジョン(NLS)戦略を導入する。
また、画像領域と文語との接続を組み込んだテキスト誘導条件設定機構(TCM)を設計する。
様々なレベルの画像やテキスト情報から特徴を効果的に識別し、マージするために、情報融合注意(IFA)モジュールを設計する。
論文 参考訳(メタデータ) (2025-01-11T13:53:10Z) - Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing [150.0380447353081]
本稿では,静的画像とダイナミックビデオの両方の包括的理解,セグメンテーション,クラスタ化のために設計された,ユニバーサルピクセルレベルのビジョンLLMであるVITRONを紹介する。
LLMの上に構築されているVITRONは、画像、ビデオ、ピクセルレベルの地域視覚のエンコーダをモジュール内に組み込んでおり、最先端のビジュアルスペシャリストをバックエンドとして採用している。
論文 参考訳(メタデータ) (2024-10-08T08:39:04Z) - From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.108694010274988]
本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
本手法は,テキストのみの大規模言語モデルで使用されるトークン化戦略を反映して,構造的事前情報を画像トークンに直接組み込む。
論文 参考訳(メタデータ) (2024-10-03T02:34:31Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [65.73013453373349]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。
提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文 参考訳(メタデータ) (2024-07-25T06:10:33Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。