論文の概要: $λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
- arxiv url: http://arxiv.org/abs/2402.05195v2
- Date: Tue, 9 Apr 2024 22:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 18:45:39.174875
- Title: $λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
- Title(参考訳): λ$-ECLIPSE:CLIP潜時空間を利用したマルチコンセプトパーソナライズされたテキスト-画像拡散モデル
- Authors: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang,
- Abstract要約: $lambda$-ECLIPSEは、拡散UNetモデルに頼ることなく、事前訓練されたCLIPモデルの潜在空間で動作する。
$lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
- 参考スコア(独自算出の注目度): 61.091910046492345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advances in personalized text-to-image (P-T2I) generative models, it remains challenging to perform finetuning-free multi-subject-driven T2I in a resource-efficient manner. Predominantly, contemporary approaches, involving the training of Hypernetworks and Multimodal Large Language Models (MLLMs), require heavy computing resources that range from 600 to 12300 GPU hours of training. These subject-driven T2I methods hinge on Latent Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the latent space of these diffusion models significantly escalates resource demands, leading to inconsistent results and necessitating numerous iterations for a single desired image. In this paper, we present $\lambda$-ECLIPSE, an alternative prior-training strategy that works in the latent space of a pre-trained CLIP model without relying on the diffusion UNet models. $\lambda$-ECLIPSE leverages the image-text interleaved pre-training for fast and effective multi-subject-driven P-T2I. Through extensive experiments, we establish that $\lambda$-ECLIPSE surpasses existing baselines in composition alignment while preserving concept alignment performance, even with significantly lower resource utilization. $\lambda$-ECLIPSE performs multi-subject driven P-T2I with just 34M parameters and is trained on a mere 74 GPU hours. Additionally, $\lambda$-ECLIPSE demonstrates the unique ability to perform multi-concept interpolations.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ(P-T2I)生成モデルが近年進歩しているにもかかわらず、資源効率のよい方法で微調整不要なマルチオブジェクト駆動型T2Iを実行することは依然として困難である。
典型的には、HypernetworksとMultimodal Large Language Models (MLLMs)のトレーニングを含む現代のアプローチでは、600から12300のGPU時間の重いコンピューティングリソースが必要となる。
これらの対象駆動型T2I法はLDM(Latent Diffusion Models)上でヒンジを行う。
LDMには明確な利点があるが、P-T2I法はこれらの拡散モデルの潜伏空間に依存しているため、リソース需要は著しく増大し、一貫性のない結果となり、1つの望まれる画像に対して多数のイテレーションが必要になる。
本稿では,プリトレーニング済みCLIPモデルの潜在空間で動作する代替事前学習戦略である$\lambda$-ECLIPSEを,拡散UNetモデルに依存しない形で提示する。
$\lambda$-ECLIPSEは、高速で効果的な多目的駆動型P-T2Iのための画像テキストインターリーブド事前学習を利用する。
広範な実験により、$\lambda$-ECLIPSEは、リソース利用率が著しく低い場合でも、コンポジションアライメントにおける既存のベースラインを超えながら、概念アライメント性能を保っていることが判明した。
$\lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
さらに$\lambda$-ECLIPSEは、マルチコンセプト補間を実行するユニークな機能を示している。
関連論文リスト
- Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training [15.462969044840868]
マルチモーダル学習と、フェデレートラーニング(FL)のようなプライバシー保護トレーニングアプローチを統合することが不可欠である。
LW-FedMMLはレイヤワイドなマルチモーダル学習手法であり,学習プロセスを複数のステップに分割する。
提案手法の有効性を検証するため,様々なFLシナリオとマルチモーダル学習環境の広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-22T07:06:17Z) - ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations [67.25974711647481]
テキスト・トゥ・イメージ(T2I)拡散モデル(特にunCLIPモデル)は、様々なT2Iベンチマークで最先端(SOTA)性能を達成する。
本稿では,パラメータとデータ効率を両立する新しいコントラスト学習手法であるECLIPSEを紹介する。
ECLIPSEの事前トレーニングは、パラメータの3.3%に過ぎず、わずか2.8%のデータに基づいてトレーニングされ、平均71.6%の選好スコアでベースラインのT2Iを上回ります。
論文 参考訳(メタデータ) (2023-12-07T19:32:39Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - MS-LSTM: Exploring Spatiotemporal Multiscale Representations in Video
Prediction Domain [8.216911980865902]
既存のRNNモデルは、積み重ねレイヤーのみによって、マルチスケールの機能を得ることができる。
本稿では,マルチスケールの観点からMS-LSTMを完全に提案する。
理論的にはMS-LSTMとそのコンポーネントのトレーニングコストと性能を理論的に分析する。
論文 参考訳(メタデータ) (2023-04-16T08:25:02Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。