論文の概要: MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal
Image Generation
- arxiv url: http://arxiv.org/abs/2305.15296v1
- Date: Wed, 24 May 2023 16:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:31:35.751062
- Title: MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal
Image Generation
- Title(参考訳): マルチフュージョン:多言語多モード画像生成のための事前学習モデル
- Authors: Marco Bellagente, Manuel Brack, Hannah Teufel, Felix Friedrich,
Bj\"orn Deiseroth, Constantin Eichenberg, Andrew Dai, Robert Baldock,
Souradeep Nanda, Koen Oostermeijer, Andres Felipe Cruz-Salinas, Patrick
Schramowski, Kristian Kersting, Samuel Weinbach
- Abstract要約: MultiFusionは、複数のモダリティと言語を任意にインターリーブした入力で複雑な概念を表現することができる。
MutliFusionは、事前訓練されたモデルを活用し、それらを結合システムに統合するために調整する。
- 参考スコア(独自算出の注目度): 12.288288688070134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent popularity of text-to-image diffusion models (DM) can largely be
attributed to the intuitive interface they provide to users. The intended
generation can be expressed in natural language, with the model producing
faithful interpretations of text prompts. However, expressing complex or
nuanced ideas in text alone can be difficult. To ease image generation, we
propose MultiFusion that allows one to express complex and nuanced concepts
with arbitrarily interleaved inputs of multiple modalities and languages.
MutliFusion leverages pre-trained models and aligns them for integration into a
cohesive system, thereby avoiding the need for extensive training from scratch.
Our experimental results demonstrate the efficient transfer of capabilities
from individual modules to the downstream model. Specifically, the fusion of
all independent components allows the image generation module to utilize
multilingual, interleaved multimodal inputs despite being trained solely on
monomodal data in a single language.
- Abstract(参考訳): 最近のtext-to-image diffusion models(dm)の人気は、ユーザに提供する直感的なインターフェースに起因している。
意図された生成は自然言語で表現でき、モデルはテキストプロンプトの忠実な解釈を生成する。
しかし、複雑なアイデアやニュアンスをテキストだけで表現することは困難である。
画像生成を容易にするために,複数のモダリティや言語を任意にインターリーブした入力で複雑でニュアンスな概念を表現できるMultiFusionを提案する。
mutlifusionは事前トレーニングされたモデルを活用し、それらを結合システムに統合することで、スクラッチから広範なトレーニングの必要性を回避する。
実験結果は,個々のモジュールから下流モデルへの効率的な機能移行を実証する。
特に、すべての独立したコンポーネントの融合により、画像生成モジュールは単一の言語でモノモダルデータのみを訓練しているにもかかわらず、多言語、インターリーブされたマルチモーダル入力を利用することができる。
関連論文リスト
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。