論文の概要: MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation
- arxiv url: http://arxiv.org/abs/2404.05674v1
- Date: Mon, 8 Apr 2024 16:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 13:36:07.633343
- Title: MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation
- Title(参考訳): MoMA: 高速なパーソナライズ画像生成のためのマルチモーダルLCMアダプタ
- Authors: Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang,
- Abstract要約: フレキシブルなゼロショット機能を備えたオープン語彙でトレーニング不要なパーソナライズされたイメージモデルであるMoMAを紹介します。
特徴抽出器とジェネレータの両方に二重の役割を果たすために、MoMAをトレーニングします。
本稿では,画像拡散モデルに画像特徴を効率的に伝達する自己注意ショートカット手法を提案する。
- 参考スコア(独自算出の注目度): 22.69019130782004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present MoMA: an open-vocabulary, training-free personalized image model that boasts flexible zero-shot capabilities. As foundational text-to-image models rapidly evolve, the demand for robust image-to-image translation grows. Addressing this need, MoMA specializes in subject-driven personalized image generation. Utilizing an open-source, Multimodal Large Language Model (MLLM), we train MoMA to serve a dual role as both a feature extractor and a generator. This approach effectively synergizes reference image and text prompt information to produce valuable image features, facilitating an image diffusion model. To better leverage the generated features, we further introduce a novel self-attention shortcut method that efficiently transfers image features to an image diffusion model, improving the resemblance of the target object in generated images. Remarkably, as a tuning-free plug-and-play module, our model requires only a single reference image and outperforms existing methods in generating images with high detail fidelity, enhanced identity-preservation and prompt faithfulness. Our work is open-source, thereby providing universal access to these advancements.
- Abstract(参考訳): 本稿では,自由なゼロショット機能を有するオープン語彙,トレーニング不要なパーソナライズされたイメージモデルであるMoMAを提案する。
基礎的なテキスト・ツー・イメージモデルが急速に進化するにつれて、堅牢な画像・画像翻訳の需要が増大する。
このニーズに応えるため、MoMAは主題駆動のパーソナライズされた画像生成を専門としている。
オープンソースのMultimodal Large Language Model (MLLM)を利用して、MoMAを訓練し、特徴抽出器とジェネレータの両方として二重の役割を果たすようにします。
このアプローチは、参照画像とテキストプロンプト情報を効果的に相乗化して、価値ある画像特徴を生成し、画像拡散モデルを容易にする。
さらに, 画像拡散モデルに画像特徴を効率よく伝達し, 生成画像における対象物体の類似性を改善する自己注意ショートカット手法を提案する。
注目すべきは、チューニング不要なプラグイン・アンド・プレイモジュールとして、我々のモデルは単一の参照画像しか必要とせず、高精細な忠実さ、アイデンティティ保存の強化、忠実さの迅速な生成において既存の手法よりも優れていることである。
私たちの仕事はオープンソースで、これらの進歩に普遍的なアクセスを提供しています。
関連論文リスト
- Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing [23.51498634405422]
マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。
提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
論文 参考訳(メタデータ) (2024-05-27T03:50:37Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。