Fugu-MT 論文翻訳(概要): EasyGen: Easing Multimodal Generation with a Bidirectional Conditional Diffusion Model and LLMs

論文の概要: EasyGen: Easing Multimodal Generation with a Bidirectional Conditional Diffusion Model and LLMs

arxiv url: http://arxiv.org/abs/2310.08949v2
Date: Tue, 20 Feb 2024 06:54:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 20:41:56.765885
Title: EasyGen: Easing Multimodal Generation with a Bidirectional Conditional Diffusion Model and LLMs
Title（参考訳）: EasyGen:双方向条件拡散モデルとLLMによるマルチモーダル生成を容易にする
Authors: Xiangyu Zhao, Bo Liu, Qijiong Liu, Guangyuan Shi, Xiao-Ming Wu
Abstract要約: EasyGenはマルチモーダル理解と生成を強化するように設計されている。拡散モデルと大言語モデル(LLM)の機能を利用する。 EasyGenは、データ効率のトレーニング、高品質な画像生成、拡張性に優れています。
参考スコア（独自算出の注目度）: 28.39066514824781
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present EasyGen, an efficient model designed to enhance multimodal understanding and generation by harnessing the capabilities of diffusion models and large language models (LLMs). Unlike existing multimodal models that predominately depend on encoders like CLIP or ImageBind and need ample amounts of training data to bridge modalities, EasyGen leverages BiDiffuser, a bidirectional conditional diffusion model, to foster more efficient modality interactions. EasyGen achieves text generation by training a projection layer linking BiDiffuser and an LLM, and facilities image generation by training an adapter to align the LLM's text space with the BiDiffuser's image space. Comprehensive quantitative and qualitative experiments show that EasyGen excels in data-efficient training, high-quality image generation, and extendibility, effectively addressing the challenges in multimodal generation. The source code is available at https://github.com/zxy556677/EasyGen.
Abstract（参考訳）: 本稿では,拡散モデルと大規模言語モデル(LLM)の機能を活用することで,マルチモーダル理解と生成を向上する効率的なモデルであるEasyGenを提案する。 CLIPやImageBindのようなエンコーダに依存し、モダリティをブリッジするために十分な量のトレーニングデータを必要とする既存のマルチモーダルモデルとは異なり、EasyGenは双方向条件拡散モデルであるBiDiffuserを活用して、より効率的なモダリティ相互作用を促進する。 EasyGen は、BiDiffuser と LLM を連結する投影層を訓練し、LLM のテキスト空間と BiDiffuser のイメージ空間を整列させるアダプタを訓練することで、テキスト生成を実現する。包括的定量的および定性的実験により、EasyGenは、データ効率のトレーニング、高品質な画像生成、拡張性に優れ、マルチモーダル生成の課題に効果的に対処できることが示されている。ソースコードはhttps://github.com/zxy556677/EasyGenで入手できる。

関連論文リスト

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model [77.66516875262963]
マルチモーダル理解・生成のための有効長適応オムニ拡散モデルである textbfLLaDA-o を提案する。 MoD上に構築されたデータ中心長適応戦略により,マルチモーダル環境でのフレキシブルなデコーディングを実現する。実験により、LLaDA-oはマルチモーダル理解および生成ベンチマーク上でのオムニ拡散モデル間の最先端性能を実現することが示された。
論文参考訳（メタデータ） (2026-03-01T12:05:06Z)
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文参考訳（メタデータ） (2026-02-12T17:44:24Z)
DuoGen: Towards General Purpose Interleaved Multimodal Generation [65.13479486098419]
DuoGenは汎用的なインターリーブ生成フレームワークで、データキュレーション、アーキテクチャ設計、評価に対処する。我々は、キュレートされた生のWebサイトから書き直されたマルチモーダルな会話を組み合わせることで、大規模で高品質な命令チューニングデータセットを構築する。 2段階の切り離し戦略はまずMLLMをインストラクションチューニングし、次にインターリーブされた画像テキストシーケンスを使用してDiTをアライメントする。
論文参考訳（メタデータ） (2026-01-31T04:35:15Z)
LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation [48.02842078521973]
提案手法は, 生成と理解に特化して公開されているモデルを戦略的に融合させることにより, 競争性能をより効率的に得ることができることを示す。我々のキーとなる設計は、ネットワーク全体にわたってマルチモーダルな自己注意ブロックをインターリーブしながら、元のブロックを保持することである。たった35Bトークンでトレーニングすることで、このアプローチは複数のベンチマークで強力な結果が得られる。
論文参考訳（メタデータ） (2025-10-27T02:59:57Z)
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-30T17:59:46Z)
MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models [30.494968865008513]
最近のテキスト・ツー・イメージモデルは、正確な視覚制御、マルチモーダル入力のバランス、複雑な画像生成のための広範な訓練を必要とする。自己回帰型マルチモーダル画像生成のための効率的なマルチモーダルコンディショニングのための新しいフレームワークであるMENTORを提案する。本手法は,拡散法に比べて画像再構成精度,タスク適応性,トレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-07-13T10:52:59Z)
Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing [7.278180096265984]
Nexus-Genは,多モーダル大言語モデルの言語推論能力を,拡散モデルの画像合成能力と相乗化する統一モデルである。本稿では, 連続埋め込みではなく, 位置埋め込み型特殊トークンで入力シーケンスをプリフィルする自己回帰方式を提案する。
論文参考訳（メタデータ） (2025-04-30T06:30:48Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
MMGen: Unified Multi-modal Image Generation and Understanding in One Go [60.97155790727879]
本稿では,複数の生成タスクを単一の拡散モデルに統合する統合フレームワークMMGenを紹介する。提案手法は,マルチモーダル出力を柔軟にサポートし,単純なモーダルデカップリング戦略とともに,新しい拡散トランスフォーマを開発する。
論文参考訳（メタデータ） (2025-03-26T15:37:17Z)
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。コードとモデルはリリースされます。
論文参考訳（メタデータ） (2024-12-12T18:59:26Z)
Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文参考訳（メタデータ） (2024-12-11T18:57:32Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。 LLMの能力をフル活用するための新しいフレームワークを提案する。さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文参考訳（メタデータ） (2024-06-17T17:59:43Z)
Generative Visual Instruction Tuning [11.727612242016871]
本稿では,大規模なマルチモーダルモデルのゼロショット機能を改善するために,自動生成した命令追従データを提案する。 GenLLaVAは、ジェネレーティブな大言語であり、ビジュアルアシスタントである。我々のモデルはLLaVAよりも優れた視覚理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
論文参考訳（メタデータ） (2024-06-17T07:06:58Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Efficient Multimodal Diffusion Models Using Joint Data Infilling with Partially Shared U-Net [20.437172251393257]
部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
論文参考訳（メタデータ） (2023-11-28T04:34:44Z)
LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文参考訳（メタデータ） (2023-11-27T13:37:26Z)
ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。 ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文参考訳（メタデータ） (2023-11-24T15:20:01Z)
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。 CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-09-05T21:27:27Z)
DiffuGen: Adaptable Approach for Generating Labeled Image Datasets using Stable Diffusion Models [2.0935496890864207]
DiffuGenは、安定拡散モデルのパワーを利用してラベル付き画像データセットを効率的に作成する、シンプルで適応可能なアプローチである。安定した拡散モデルを利用することで、我々のアプローチは生成されたデータセットの品質を保証するだけでなく、ラベル生成のための汎用的なソリューションも提供します。
論文参考訳（メタデータ） (2023-09-01T04:42:03Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。