論文の概要: EasyGen: Easing Multimodal Generation with a Bidirectional Conditional
Diffusion Model and LLMs
- arxiv url: http://arxiv.org/abs/2310.08949v2
- Date: Tue, 20 Feb 2024 06:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:41:56.765885
- Title: EasyGen: Easing Multimodal Generation with a Bidirectional Conditional
Diffusion Model and LLMs
- Title(参考訳): EasyGen:双方向条件拡散モデルとLLMによるマルチモーダル生成を容易にする
- Authors: Xiangyu Zhao, Bo Liu, Qijiong Liu, Guangyuan Shi, Xiao-Ming Wu
- Abstract要約: EasyGenはマルチモーダル理解と生成を強化するように設計されている。
拡散モデルと大言語モデル(LLM)の機能を利用する。
EasyGenは、データ効率のトレーニング、高品質な画像生成、拡張性に優れています。
- 参考スコア(独自算出の注目度): 28.39066514824781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EasyGen, an efficient model designed to enhance multimodal
understanding and generation by harnessing the capabilities of diffusion models
and large language models (LLMs). Unlike existing multimodal models that
predominately depend on encoders like CLIP or ImageBind and need ample amounts
of training data to bridge modalities, EasyGen leverages BiDiffuser, a
bidirectional conditional diffusion model, to foster more efficient modality
interactions. EasyGen achieves text generation by training a projection layer
linking BiDiffuser and an LLM, and facilities image generation by training an
adapter to align the LLM's text space with the BiDiffuser's image space.
Comprehensive quantitative and qualitative experiments show that EasyGen excels
in data-efficient training, high-quality image generation, and extendibility,
effectively addressing the challenges in multimodal generation. The source code
is available at https://github.com/zxy556677/EasyGen.
- Abstract(参考訳): 本稿では,拡散モデルと大規模言語モデル(LLM)の機能を活用することで,マルチモーダル理解と生成を向上する効率的なモデルであるEasyGenを提案する。
CLIPやImageBindのようなエンコーダに依存し、モダリティをブリッジするために十分な量のトレーニングデータを必要とする既存のマルチモーダルモデルとは異なり、EasyGenは双方向条件拡散モデルであるBiDiffuserを活用して、より効率的なモダリティ相互作用を促進する。
EasyGen は、BiDiffuser と LLM を連結する投影層を訓練し、LLM のテキスト空間と BiDiffuser のイメージ空間を整列させるアダプタを訓練することで、テキスト生成を実現する。
包括的定量的および定性的実験により、EasyGenは、データ効率のトレーニング、高品質な画像生成、拡張性に優れ、マルチモーダル生成の課題に効果的に対処できることが示されている。
ソースコードはhttps://github.com/zxy556677/EasyGenで入手できる。
関連論文リスト
- MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image
Translation [71.7970885247162]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Efficient Multimodal Diffusion Models Using Joint Data Infilling with
Partially Shared U-Net [20.437172251393257]
部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。
また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。
我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
論文 参考訳(メタデータ) (2023-11-28T04:34:44Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - DiffuGen: Adaptable Approach for Generating Labeled Image Datasets using
Stable Diffusion Models [2.0935496890864207]
DiffuGenは、安定拡散モデルのパワーを利用してラベル付き画像データセットを効率的に作成する、シンプルで適応可能なアプローチである。
安定した拡散モデルを利用することで、我々のアプローチは生成されたデータセットの品質を保証するだけでなく、ラベル生成のための汎用的なソリューションも提供します。
論文 参考訳(メタデータ) (2023-09-01T04:42:03Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Generative Visual Prompt: Unifying Distributional Control of Pre-Trained
Generative Models [77.47505141269035]
Generative Visual Prompt (PromptGen) は、事前訓練された生成モデルの分散制御のためのフレームワークである。
PromptGenはエネルギーベースモデル(EBM)を近似し、フィードフォワード方式で画像をサンプリングする。
コードはhttps://github.com/ChenWu98/Generative-Visual-Prompt.comで入手できる。
論文 参考訳(メタデータ) (2022-09-14T22:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。