論文の概要: M-VADER: A Model for Diffusion with Multimodal Context
- arxiv url: http://arxiv.org/abs/2212.02936v1
- Date: Tue, 6 Dec 2022 12:45:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:58:40.194446
- Title: M-VADER: A Model for Diffusion with Multimodal Context
- Title(参考訳): M-VADER:マルチモーダル文脈での拡散モデル
- Authors: Samuel Weinbach, Marco Bellagente, Constantin Eichenberg, Andrew Dai,
Robert Baldock, Souradeep Nanda, Bj\"orn Deiseroth, Koen Oostermeijer, Hannah
Teufel, Andres Felipe Cruz-Salinas
- Abstract要約: 本稿では,M-VADERが画像とテキストの組み合わせで指定された画像を生成する方法を示す。
視覚言語モデルと密接に関連する埋め込みモデルを導入する。
- 参考スコア(独自算出の注目度): 0.786460153386845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce M-VADER: a diffusion model (DM) for image generation where the
output can be specified using arbitrary combinations of images and text. We
show how M-VADER enables the generation of images specified using combinations
of image and text, and combinations of multiple images. Previously, a number of
successful DM image generation algorithms have been introduced that make it
possible to specify the output image using a text prompt. Inspired by the
success of those models, and led by the notion that language was already
developed to describe the elements of visual contexts that humans find most
important, we introduce an embedding model closely related to a vision-language
model. Specifically, we introduce the embedding model S-MAGMA: a 13 billion
parameter multimodal decoder combining components from an autoregressive
vision-language model MAGMA and biases finetuned for semantic search.
- Abstract(参考訳): 画像とテキストの任意の組み合わせを用いて出力を指定できる画像生成用拡散モデル(DM) M-VADERを紹介する。
M-VADERは、画像とテキストの組み合わせと複数の画像の組み合わせを用いて、指定された画像を生成することができることを示す。
従来,テキストプロンプトを用いて出力画像を指定することが可能なdm画像生成アルゴリズムが数多く導入されてきた。
これらのモデルの成功に着想を得て、人間が最も重要な視覚コンテキストの要素を記述するために既に言語が開発されたという考えに導かれ、視覚言語モデルと密接に関連した埋め込みモデルを導入する。
具体的には、自己回帰視覚言語モデルMAGMAの成分と意味探索のために微調整されたバイアスを組み合わせた13億のパラメータマルチモーダルデコーダである埋め込みモデルS-MAGMAを紹介する。
関連論文リスト
- MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation [43.139415423751615]
写真共有マルチモーダル対話生成には、テキスト応答を生成するだけでなく、適切なタイミングで写真を共有するための対話エージェントが必要である。
パイプラインモデルは、この複雑なマルチモーダルタスクを処理するために、画像キャプションモデル、テキスト生成モデル、画像生成モデルを統合する。
本稿では,画像パーセプトロンと画像生成器を大言語モデルに統合した,写真共有マルチモーダル対話生成のための最初のエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2024-08-16T10:33:19Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - 3M: Multi-style image caption generation using Multi-modality features
under Multi-UPDOWN model [8.069209836624495]
マルチモーダル特徴を符号化し,それをキャプションにデコードするマルチUPDOWNキャプションモデルである3Mモデルを提案する。
2つのデータセットでの性能を検証し,人間ライクなキャプション生成におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-20T14:12:13Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。