Fugu-MT 論文翻訳(概要): UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

論文の概要: UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

arxiv url: http://arxiv.org/abs/2401.13388v1
Date: Wed, 24 Jan 2024 11:36:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 14:41:31.303517
Title: UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion
Title（参考訳）: UNIMO-G:マルチモーダル条件拡散による統一画像生成
Authors: Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao
Abstract要約: UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
参考スコア（独自算出の注目度）: 39.397961646315665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing text-to-image diffusion models primarily generate images from text prompts. However, the inherent conciseness of textual descriptions poses challenges in faithfully synthesizing images with intricate details, such as specific entities or scenes. This paper presents \textbf{UNIMO-G}, a simple multimodal conditional diffusion framework that operates on multimodal prompts with interleaved textual and visual inputs, which demonstrates a unified ability for both text-driven and subject-driven image generation. UNIMO-G comprises two core components: a Multimodal Large Language Model (MLLM) for encoding multimodal prompts, and a conditional denoising diffusion network for generating images based on the encoded multimodal input. We leverage a two-stage training strategy to effectively train the framework: firstly pre-training on large-scale text-image pairs to develop conditional image generation capabilities, and then instruction tuning with multimodal prompts to achieve unified image generation proficiency. A well-designed data processing pipeline involving language grounding and image segmentation is employed to construct multi-modal prompts. UNIMO-G excels in both text-to-image generation and zero-shot subject-driven synthesis, and is notably effective in generating high-fidelity images from complex multimodal prompts involving multiple image entities.
Abstract（参考訳）: 既存のテキストから画像への拡散モデルは、主にテキストプロンプトから画像を生成する。しかし、テキスト記述の固有の簡潔さは、特定の実体やシーンのような複雑な詳細を持つ画像を忠実に合成する上で困難を生じさせる。本稿では,テキスト駆動および主題駆動画像生成の統一性を示すマルチモーダルプロンプト上で動作する,単純なマルチモーダル条件拡散フレームワークである \textbf{unimo-g} を提案する。 unimo-gは、マルチモーダルプロンプトを符号化するマルチモーダル大言語モデル(mllm)と、エンコードされたマルチモーダル入力に基づいて画像を生成する条件付きデノージング拡散ネットワークである。まず、大規模テキストイメージペアで事前トレーニングを行い、条件付き画像生成機能を開発し、次にマルチモーダルプロンプトでチューニングを行い、統合された画像生成能力を実現する。言語接地とイメージセグメンテーションを含む、よく設計されたデータ処理パイプラインを用いて、マルチモーダルプロンプトを構築する。 unimo-gはテキスト対画像生成とゼロショット主題駆動合成の両方に優れており、複数の画像エンティティを含む複雑なマルチモーダルプロンプトから高精細な画像を生成するのに特に有効である。

関連論文リスト

Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-30T17:59:46Z)
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文参考訳（メタデータ） (2025-02-27T15:08:39Z)
The Narrow Gate: Localized Image-Text Communication in Native Multimodal Models [44.299894732492696]
視覚言語モデル(VLM)は、視覚情報がどのように処理され、テキスト領域に転送されるかに焦点を当て、画像理解タスクを処理する。テキストと画像の両方を生成するためにマルチモーダルデータのスクラッチからトレーニングされたネイティブなマルチモーダルVLMと、事前訓練された大規模言語モデルから適応された、あるいはテキストのみを生成することができる非ネイティブなマルチモーダルVLMを比較し、情報フローの重要な違いを強調した。単一トークンを非難することは画像理解性能を著しく低下させるのに対し、ターゲットレベルの介入は画像意味論や下流テキストをきめ細かな制御で確実に操ることを示す。
論文参考訳（メタデータ） (2024-12-09T16:39:40Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文参考訳（メタデータ） (2024-07-11T17:21:03Z)
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。 MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文参考訳（メタデータ） (2024-01-18T18:50:16Z)
Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。画像生成のための*multi-modal instruction*を導入する。画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文参考訳（メタデータ） (2024-01-03T19:31:58Z)
De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文参考訳（メタデータ） (2023-11-01T16:12:40Z)
Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。 Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。 Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文参考訳（メタデータ） (2023-07-11T12:45:39Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。