論文の概要: Making Multimodal Generation Easier: When Diffusion Models Meet LLMs
- arxiv url: http://arxiv.org/abs/2310.08949v1
- Date: Fri, 13 Oct 2023 08:38:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 13:43:10.744164
- Title: Making Multimodal Generation Easier: When Diffusion Models Meet LLMs
- Title(参考訳): マルチモーダル生成を容易にする:拡散モデルがLLMと出会うとき
- Authors: Xiangyu Zhao, Bo Liu, Qijiong Liu, Guangyuan Shi, Xiao-Ming Wu
- Abstract要約: EasyGenは、拡散モデルと大言語モデル(LLM)の機能を活用することで、マルチモーダル理解と生成を強化するように設計されている。
EasyGenは、単純なプロジェクション層を通じてBiDiffuserとLLMを統合することで、画像からテキストへの生成を処理する。
- 参考スコア(独自算出の注目度): 28.39066514824781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present EasyGen, an efficient model designed to enhance multimodal
understanding and generation by harnessing the capabilities of diffusion models
and large language models (LLMs). Unlike existing multimodal models that
predominately depend on encoders like CLIP or ImageBind and need ample amounts
of training data to bridge the gap between modalities, EasyGen is built upon a
bidirectional conditional diffusion model named BiDiffuser, which promotes more
efficient interactions between modalities. EasyGen handles image-to-text
generation by integrating BiDiffuser and an LLM via a simple projection layer.
Unlike most existing multimodal models that are limited to generating text
responses, EasyGen can also facilitate text-to-image generation by leveraging
the LLM to create textual descriptions, which can be interpreted by BiDiffuser
to generate appropriate visual responses. Extensive quantitative and
qualitative experiments demonstrate the effectiveness of EasyGen, whose
training can be easily achieved in a lab setting. The source code is available
at https://github.com/zxy556677/EasyGen.
- Abstract(参考訳): 本稿では,拡散モデルと大規模言語モデル(LLM)の機能を活用することで,マルチモーダル理解と生成を向上する効率的なモデルであるEasyGenを提案する。
CLIPやImageBindのようなエンコーダに依存し、モダリティ間のギャップを埋めるために十分な量のトレーニングデータを必要とする既存のマルチモーダルモデルとは異なり、EasyGenはBiDiffuserという双方向条件拡散モデルの上に構築されており、モダリティ間のより効率的な相互作用を促進する。
easygen は bidiffuser と llm を単純な投影層で統合することで、画像からテキストへの生成を処理する。
テキスト応答の生成に制限のある既存の多くのマルチモーダルモデルとは異なり、EasyGenはLLMを利用してテキスト記述を作成することで、テキスト・ツー・イメージ生成を容易にすることができる。
大規模な定量的および定性的実験は、実験室で容易に訓練できるEasyGenの有効性を示す。
ソースコードはhttps://github.com/zxy556677/EasyGenで入手できる。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。
LLMの能力をフル活用するための新しいフレームワークを提案する。
さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文 参考訳(メタデータ) (2024-06-17T17:59:43Z) - Generative Visual Instruction Tuning [11.727612242016871]
本稿では,大規模なマルチモーダルモデルのゼロショット機能を改善するために,自動生成した命令追従データを提案する。
GenLLaVAは、ジェネレーティブな大言語であり、ビジュアルアシスタントである。
我々のモデルはLLaVAよりも優れた視覚理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
論文 参考訳(メタデータ) (2024-06-17T07:06:58Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Efficient Multimodal Diffusion Models Using Joint Data Infilling with
Partially Shared U-Net [20.437172251393257]
部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。
また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。
我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
論文 参考訳(メタデータ) (2023-11-28T04:34:44Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - DiffuGen: Adaptable Approach for Generating Labeled Image Datasets using
Stable Diffusion Models [2.0935496890864207]
DiffuGenは、安定拡散モデルのパワーを利用してラベル付き画像データセットを効率的に作成する、シンプルで適応可能なアプローチである。
安定した拡散モデルを利用することで、我々のアプローチは生成されたデータセットの品質を保証するだけでなく、ラベル生成のための汎用的なソリューションも提供します。
論文 参考訳(メタデータ) (2023-09-01T04:42:03Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。