論文の概要: $\lambda$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion
Models by Leveraging CLIP Latent Space
- arxiv url: http://arxiv.org/abs/2402.05195v1
- Date: Wed, 7 Feb 2024 19:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:32:01.021700
- Title: $\lambda$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion
Models by Leveraging CLIP Latent Space
- Title(参考訳): $\lambda$-ECLIPSE:CLIP遅延空間を活用するマルチコンセプトパーソナライズされたテキスト-画像拡散モデル
- Authors: Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
- Abstract要約: ECLIPSEは、UnCLIPベースのT2Iモデルをトレーニングするための、よりリソース効率の良い経路である。
$lambda$-ECLIPSEは、たった34Mパラメータで、単一、マルチオブジェクト、エッジガイダンスのT2Iパーソナライゼーションを実現する。
$lambda$-ECLIPSEは、1.6Mイメージテキストインターリーブデータを使用して、わずか74GPU時間でトレーニングされる。
- 参考スコア(独自算出の注目度): 66.73852291289907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advances in personalized text-to-image (P-T2I) generative
models, subject-driven T2I remains challenging. The primary bottlenecks include
1) Intensive training resource requirements, 2) Hyper-parameter sensitivity
leading to inconsistent outputs, and 3) Balancing the intricacies of novel
visual concept and composition alignment. We start by re-iterating the core
philosophy of T2I diffusion models to address the above limitations.
Predominantly, contemporary subject-driven T2I approaches hinge on Latent
Diffusion Models (LDMs), which facilitate T2I mapping through cross-attention
layers. While LDMs offer distinct advantages, P-T2I methods' reliance on the
latent space of these diffusion models significantly escalates resource
demands, leading to inconsistent results and necessitating numerous iterations
for a single desired image. Recently, ECLIPSE has demonstrated a more
resource-efficient pathway for training UnCLIP-based T2I models, circumventing
the need for diffusion text-to-image priors. Building on this, we introduce
$\lambda$-ECLIPSE. Our method illustrates that effective P-T2I does not
necessarily depend on the latent space of diffusion models. $\lambda$-ECLIPSE
achieves single, multi-subject, and edge-guided T2I personalization with just
34M parameters and is trained on a mere 74 GPU hours using 1.6M image-text
interleaved data. Through extensive experiments, we also establish that
$\lambda$-ECLIPSE surpasses existing baselines in composition alignment while
preserving concept alignment performance, even with significantly lower
resource utilization.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ(p-t2i)生成モデルの進歩にもかかわらず、主題駆動型t2iは依然として困難である。
主なボトルネックは
1)集中訓練資源要件
2)過パラメータ感度が不整合アウトプットにつながること、及び
3)新しい視覚概念とコンポジションアライメントの複雑さのバランスをとる。
まず、上記の制限に対処するために、T2I拡散モデルのコア哲学を再考する。
典型的には、現代の被写体駆動型T2Iは遅延拡散モデル (LDMs) 上のヒンジにアプローチし、T2Iマッピングを横断的な層を通して促進する。
ldmsは異なる利点を提供しているが、p-t2i法はこれらの拡散モデルの潜在空間に依存しており、リソース要求を著しくエスカレートする。
近年、ECLIPSEは、UnCLIPベースのT2Iモデルをトレーニングするためのよりリソース効率の良い経路を示しており、画像への拡散テキストの必要性を回避している。
これに基づいて$\lambda$-ECLIPSEを導入します。
実効的p-t2iは拡散モデルの潜在空間に必ずしも依存しないことを示す。
$\lambda$-ECLIPSEは、たった34Mパラメータで単一、マルチオブジェクト、エッジガイダンスのT2Iパーソナライゼーションを実現し、1.6Mイメージテキストインターリーブデータを使用してわずか74GPU時間でトレーニングされる。
広範な実験を通じて、$\lambda$-ECLIPSEは、リソース利用率が著しく低い場合でも、コンポジションアライメントにおける既存のベースラインを超えながら、概念アライメント性能を保っていることも確認した。
関連論文リスト
- Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training [15.462969044840868]
LW-FedMMLは,学習プロセスを複数の段階に分解する階層型多モーダル学習手法である。
提案手法の有効性を検証するため,様々なFLおよびマルチモーダル学習環境にまたがる広範囲な実験を行った。
具体的には、LW-FedMMLはメモリ使用量を最大2.7Times$、計算処理(FLOP)を2.4times$、通信総コストを2.3times$に削減する。
論文 参考訳(メタデータ) (2024-07-22T07:06:17Z) - ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations [67.25974711647481]
テキスト・トゥ・イメージ(T2I)拡散モデル(特にunCLIPモデル)は、様々なT2Iベンチマークで最先端(SOTA)性能を達成する。
本稿では,パラメータとデータ効率を両立する新しいコントラスト学習手法であるECLIPSEを紹介する。
ECLIPSEの事前トレーニングは、パラメータの3.3%に過ぎず、わずか2.8%のデータに基づいてトレーニングされ、平均71.6%の選好スコアでベースラインのT2Iを上回ります。
論文 参考訳(メタデータ) (2023-12-07T19:32:39Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。