論文の概要: MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal
Image Generation
- arxiv url: http://arxiv.org/abs/2305.15296v1
- Date: Wed, 24 May 2023 16:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:31:35.751062
- Title: MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal
Image Generation
- Title(参考訳): マルチフュージョン:多言語多モード画像生成のための事前学習モデル
- Authors: Marco Bellagente, Manuel Brack, Hannah Teufel, Felix Friedrich,
Bj\"orn Deiseroth, Constantin Eichenberg, Andrew Dai, Robert Baldock,
Souradeep Nanda, Koen Oostermeijer, Andres Felipe Cruz-Salinas, Patrick
Schramowski, Kristian Kersting, Samuel Weinbach
- Abstract要約: MultiFusionは、複数のモダリティと言語を任意にインターリーブした入力で複雑な概念を表現することができる。
MutliFusionは、事前訓練されたモデルを活用し、それらを結合システムに統合するために調整する。
- 参考スコア(独自算出の注目度): 12.288288688070134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent popularity of text-to-image diffusion models (DM) can largely be
attributed to the intuitive interface they provide to users. The intended
generation can be expressed in natural language, with the model producing
faithful interpretations of text prompts. However, expressing complex or
nuanced ideas in text alone can be difficult. To ease image generation, we
propose MultiFusion that allows one to express complex and nuanced concepts
with arbitrarily interleaved inputs of multiple modalities and languages.
MutliFusion leverages pre-trained models and aligns them for integration into a
cohesive system, thereby avoiding the need for extensive training from scratch.
Our experimental results demonstrate the efficient transfer of capabilities
from individual modules to the downstream model. Specifically, the fusion of
all independent components allows the image generation module to utilize
multilingual, interleaved multimodal inputs despite being trained solely on
monomodal data in a single language.
- Abstract(参考訳): 最近のtext-to-image diffusion models(dm)の人気は、ユーザに提供する直感的なインターフェースに起因している。
意図された生成は自然言語で表現でき、モデルはテキストプロンプトの忠実な解釈を生成する。
しかし、複雑なアイデアやニュアンスをテキストだけで表現することは困難である。
画像生成を容易にするために,複数のモダリティや言語を任意にインターリーブした入力で複雑でニュアンスな概念を表現できるMultiFusionを提案する。
mutlifusionは事前トレーニングされたモデルを活用し、それらを結合システムに統合することで、スクラッチから広範なトレーニングの必要性を回避する。
実験結果は,個々のモジュールから下流モデルへの効率的な機能移行を実証する。
特に、すべての独立したコンポーネントの融合により、画像生成モジュールは単一の言語でモノモダルデータのみを訓練しているにもかかわらず、多言語、インターリーブされたマルチモーダル入力を利用することができる。
関連論文リスト
- SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [68.85090820128808]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Grounding Language Models to Images for Multimodal Generation [89.30027812161686]
本手法は,大規模テキストのみの事前学習から学習した言語モデルの能力を活用する。
言語モデルを凍結させ、入力層と出力層を微調整して、モダリティ間の相互作用を可能にする。
これにより、任意にインターリーブされた画像とテキストの入力を処理し、検索した画像でインターリーブされた自由形式のテキストを生成することができる。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - A Visual Tour Of Current Challenges In Multimodal Language Models [24.083086685623247]
マルチモーダル学習は、関数語に対する効果的な単語表現を学習する際の課題を克服することができる。
安定拡散モデルは,少数の関数語のみを効果的にモデル化する。
論文 参考訳(メタデータ) (2022-10-22T22:53:55Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。