論文の概要: $λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
- arxiv url: http://arxiv.org/abs/2402.05195v2
- Date: Tue, 9 Apr 2024 22:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 18:45:39.174875
- Title: $λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
- Title(参考訳): λ$-ECLIPSE:CLIP潜時空間を利用したマルチコンセプトパーソナライズされたテキスト-画像拡散モデル
- Authors: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang,
- Abstract要約: $lambda$-ECLIPSEは、拡散UNetモデルに頼ることなく、事前訓練されたCLIPモデルの潜在空間で動作する。
$lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
- 参考スコア(独自算出の注目度): 61.091910046492345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advances in personalized text-to-image (P-T2I) generative models, it remains challenging to perform finetuning-free multi-subject-driven T2I in a resource-efficient manner. Predominantly, contemporary approaches, involving the training of Hypernetworks and Multimodal Large Language Models (MLLMs), require heavy computing resources that range from 600 to 12300 GPU hours of training. These subject-driven T2I methods hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. In this paper, we present $\lambda$-ECLIPSE, an alternative prior-training strategy that works in the latent space of a pre-trained CLIP model without relying on the diffusion UNet models. $\lambda$-ECLIPSE leverages the image-text interleaved pre-training for fast and effective multi-subject-driven P-T2I. Through extensive experiments, we establish that $\lambda$-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization. $\lambda$-ECLIPSE performs multi-subject driven P-T2I with just 34M parameters and is trained on a mere 74 GPU hours. Additionally, $\lambda$-ECLIPSE demonstrates the unique ability to perform multi-concept interpolations.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ(P-T2I)生成モデルが近年進歩しているにもかかわらず、資源効率のよい方法で微調整不要なマルチオブジェクト駆動型T2Iを実行することは依然として困難である。
典型的には、HypernetworksとMultimodal Large Language Models (MLLMs)のトレーニングを含む現代のアプローチでは、600から12300のGPU時間の重いコンピューティングリソースが必要となる。
これらの対象駆動型T2I法はLDM(Latent Diffusion Models)上でヒンジを行う。
LDMには明確な利点があるが、P-T2I法はこれらの拡散モデルの潜伏空間に依存しているため、リソース需要は著しく増大し、一貫性のない結果となり、1つの望まれる画像に対して多数のイテレーションが必要になる。
本稿では,プリトレーニング済みCLIPモデルの潜在空間で動作する代替事前学習戦略である$\lambda$-ECLIPSEを,拡散UNetモデルに依存しない形で提示する。
$\lambda$-ECLIPSEは、高速で効果的な多目的駆動型P-T2Iのための画像テキストインターリーブド事前学習を利用する。
広範な実験により、$\lambda$-ECLIPSEは、リソース利用率が著しく低い場合でも、コンポジションアライメントにおける既存のベースラインを超えながら、概念アライメント性能を保っていることが判明した。
$\lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
さらに$\lambda$-ECLIPSEは、マルチコンセプト補間を実行するユニークな機能を示している。
関連論文リスト
- Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training [15.462969044840868]
LW-FedMMLは,学習プロセスを複数の段階に分解する階層型多モーダル学習手法である。
提案手法の有効性を検証するため,様々なFLおよびマルチモーダル学習環境にまたがる広範囲な実験を行った。
具体的には、LW-FedMMLはメモリ使用量を最大2.7Times$、計算処理(FLOP)を2.4times$、通信総コストを2.3times$に削減する。
論文 参考訳(メタデータ) (2024-07-22T07:06:17Z) - ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations [67.25974711647481]
テキスト・トゥ・イメージ(T2I)拡散モデル(特にunCLIPモデル)は、様々なT2Iベンチマークで最先端(SOTA)性能を達成する。
本稿では,パラメータとデータ効率を両立する新しいコントラスト学習手法であるECLIPSEを紹介する。
ECLIPSEの事前トレーニングは、パラメータの3.3%に過ぎず、わずか2.8%のデータに基づいてトレーニングされ、平均71.6%の選好スコアでベースラインのT2Iを上回ります。
論文 参考訳(メタデータ) (2023-12-07T19:32:39Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。