論文の概要: MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data
- arxiv url: http://arxiv.org/abs/2406.18790v2
- Date: Wed, 11 Sep 2024 21:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 21:31:38.069570
- Title: MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data
- Title(参考訳): MUMU:テキストから画像データへのマルチモーダル画像生成のブートストラップ
- Authors: William Berman, Alexander Peysakhovich,
- Abstract要約: 合成画像データと公開画像データのキャプション中の単語に対応する意味論的に意味のある画像作物を抽出し,マルチモーダルデータセットをブートストラップする。
我々のモデルMUMUは拡散復号器を備えた視覚言語モデルエンコーダで構成されており、単一の8xH100 GPUノードで訓練されている。
- 参考スコア(独自算出の注目度): 50.94623170336122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We train a model to generate images from multimodal prompts of interleaved text and images such as "a <picture of a man> man and his <picture of a dog> dog in an <picture of a cartoon> animated style." We bootstrap a multimodal dataset by extracting semantically meaningful image crops corresponding to words in the image captions of synthetically generated and publicly available text-image data. Our model, MUMU, is composed of a vision-language model encoder with a diffusion decoder and is trained on a single 8xH100 GPU node. Despite being only trained on crops from the same image, MUMU learns to compose inputs from different images into a coherent output. For example, an input of a realistic person and a cartoon will output the same person in the cartoon style, and an input of a standing subject and a scooter will output the subject riding the scooter. As a result, our model generalizes to tasks such as style transfer and character consistency. Our results show the promise of using multimodal models as general purpose controllers for image generation.
- Abstract(参考訳): 我々は, インターリーブされたテキストのマルチモーダルなプロンプトから画像を生成するためにモデルを訓練し, 「人間と犬の写真」のような画像を生成する。
合成画像および公開画像データの画像キャプション中の単語に対応する意味論的意味のある画像作物を抽出し、マルチモーダルデータセットをブートストラップする。
我々のモデルMUMUは拡散復号器を備えた視覚言語モデルエンコーダで構成されており、単一の8xH100 GPUノードで訓練されている。
MUMUは、同じ画像からの作物についてのみ訓練されているにもかかわらず、異なる画像からの入力をコヒーレントな出力に合成することを学ぶ。
例えば、現実的な人物と漫画の入力は、同一人物を漫画スタイルで出力し、立像とスクーターの入力は、スクーターに乗る被験者を出力する。
その結果,本モデルはスタイル伝達や文字の一貫性といったタスクに一般化される。
この結果から,画像生成のための汎用コントローラとしてマルチモーダルモデルを用いることが期待できることを示す。
関連論文リスト
- An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation [43.139415423751615]
写真共有マルチモーダル対話生成には、テキスト応答を生成するだけでなく、適切なタイミングで写真を共有するための対話エージェントが必要である。
パイプラインモデルは、この複雑なマルチモーダルタスクを処理するために、画像キャプションモデル、テキスト生成モデル、画像生成モデルを統合する。
本稿では,画像パーセプトロンと画像生成器を大言語モデルに統合した,写真共有マルチモーダル対話生成のための最初のエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2024-08-16T10:33:19Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Vision Transformer Based Model for Describing a Set of Images as a Story [26.717033245063092]
本稿では,画像の集合を物語として記述する新しいビジョントランスフォーマーベースモデルを提案する。
提案手法は視覚変換器(ViT)を用いて入力画像の特徴を抽出する。
提案モデルの性能はVisual Story-Telling dataset (VIST)を用いて評価する。
論文 参考訳(メタデータ) (2022-10-06T09:01:50Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。