論文の概要: ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations
- arxiv url: http://arxiv.org/abs/2312.04655v1
- Date: Thu, 7 Dec 2023 19:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:06:08.613999
- Title: ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations
- Title(参考訳): ECLIPSE: 画像生成のためのリソース効率の良いテキストから画像への優先
- Authors: Maitreya Patel and Changhoon Kim and Sheng Cheng and Chitta Baral and
Yezhou Yang
- Abstract要約: テキスト・トゥ・イメージ(T2I)拡散モデル(特にunCLIPモデル)は、様々なT2Iベンチマークで最先端(SOTA)性能を達成する。
本稿では,パラメータとデータ効率を両立する新しいコントラスト学習手法であるECLIPSEを紹介する。
ECLIPSEの事前トレーニングは、パラメータの3.3%に過ぎず、わずか2.8%のデータに基づいてトレーニングされ、平均71.6%の選好スコアでベースラインのT2Iを上回ります。
- 参考スコア(独自算出の注目度): 67.25974711647481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models, notably the unCLIP models (e.g.,
DALL-E-2), achieve state-of-the-art (SOTA) performance on various compositional
T2I benchmarks, at the cost of significant computational resources. The unCLIP
stack comprises T2I prior and diffusion image decoder. The T2I prior model
alone adds a billion parameters compared to the Latent Diffusion Models, which
increases the computational and high-quality data requirements. We introduce
ECLIPSE, a novel contrastive learning method that is both parameter and
data-efficient. ECLIPSE leverages pre-trained vision-language models (e.g.,
CLIP) to distill the knowledge into the prior model. We demonstrate that the
ECLIPSE trained prior, with only 3.3% of the parameters and trained on a mere
2.8% of the data, surpasses the baseline T2I priors with an average of 71.6%
preference score under resource-limited setting. It also attains performance on
par with SOTA big models, achieving an average of 63.36% preference score in
terms of the ability to follow the text compositions. Extensive experiments on
two unCLIP diffusion image decoders, Karlo and Kandinsky, affirm that ECLIPSE
priors consistently deliver high performance while significantly reducing
resource dependency.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)拡散モデル、特にunCLIPモデル(例えばDALL-E-2)は、様々な構成的T2Iベンチマークにおいて、重要な計算資源を犠牲にして、最先端(SOTA)のパフォーマンスを達成する。
unCLIPスタックは、T2I先行及び拡散画像デコーダを含む。
t2iの事前モデルは10億のパラメータを潜在拡散モデルと比較し、計算量と高品質のデータ要求を増加させる。
ECLIPSEは,パラメータとデータ効率を両立する新しいコントラスト学習手法である。
ECLIPSEは事前訓練された視覚言語モデル(例えばCLIP)を利用して知識を事前のモデルに抽出する。
ECLIPSEが予めトレーニングされたパラメータはわずか3.3%で、わずか2.8%のデータでトレーニングされたデータだけで、リソース制限された設定で平均71.6%の選好スコアでベースラインのT2Iを上回ります。
また、SOTAのビッグモデルと同等のパフォーマンスを達成し、テキスト合成に追従する能力で平均63.36%の選好スコアを達成している。
2つのunCLIP拡散画像デコーダ(KaloとKandinsky)の広範囲な実験により、ECLIPSEはリソース依存を著しく低減しつつ、常に高い性能を提供することを確認した。
関連論文リスト
- FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources [45.40926501138365]
我々は、高度な合成最適化技術に基づいて構築された一般的なCLIPトレーニングフレームワークであるFastCLIPを紹介する。
我々のフレームワークは、通信オーバーヘッドを低減するための効率的な勾配低減戦略を備えている。
我々は、FastCLIPと最先端のトレーニングベースラインのパフォーマンスを、異なる計算スケールでベンチマークする。
論文 参考訳(メタデータ) (2024-07-01T16:37:18Z) - $λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space [61.091910046492345]
$lambda$-ECLIPSEは、拡散UNetモデルに頼ることなく、事前訓練されたCLIPモデルの潜在空間で動作する。
$lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
論文 参考訳(メタデータ) (2024-02-07T19:07:10Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。