論文の概要: Text-to-Image Generation Via Energy-Based CLIP
- arxiv url: http://arxiv.org/abs/2408.17046v1
- Date: Fri, 30 Aug 2024 07:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:19:14.899343
- Title: Text-to-Image Generation Via Energy-Based CLIP
- Title(参考訳): エネルギーベースCLIPを用いたテキスト・画像生成
- Authors: Roy Ganz, Michael Elad,
- Abstract要約: 共同エネルギーモデルからCLIPを用いた多モーダル視覚言語領域への拡張手法であるEB-CLIPを提案する。
生成目的として,CLIP空間におけるコサイン類似性に基づく画像-テキスト共同エネルギー関数を提案する。
差別的目的のために、我々は対向的対向的損失を採用し、対向的訓練目標をマルチモーダル領域に拡張する。
- 参考スコア(独自算出の注目度): 14.87860516462098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint Energy Models (JEMs), while drawing significant research attention, have not been successfully scaled to real-world, high-resolution datasets. We present EB-CLIP, a novel approach extending JEMs to the multimodal vision-language domain using CLIP, integrating both generative and discriminative objectives. For the generative objective, we introduce an image-text joint-energy function based on Cosine similarity in the CLIP space, training CLIP to assign low energy to real image-caption pairs and high energy otherwise. For the discriminative objective, we employ contrastive adversarial loss, extending the adversarial training objective to the multimodal domain. EB-CLIP not only generates realistic images from text but also achieves competitive results on the compositionality benchmark, outperforming leading methods with fewer parameters. Additionally, we demonstrate the superior guidance capability of EB-CLIP by enhancing CLIP-based generative frameworks and converting unconditional diffusion models to text-based ones. Lastly, we show that EB-CLIP can serve as a more robust evaluation metric for text-to-image generative tasks than CLIP.
- Abstract(参考訳): ジョイント・エナジー・モデル(JEM)は、重要な研究の注目を集めているが、実世界の高解像度データセットへのスケールアップには成功していない。
本稿では,JEMをCLIPを用いてマルチモーダル視覚言語ドメインに拡張する新しいアプローチであるEB-CLIPについて述べる。
生成目的として,CLIP空間におけるコサイン類似性に基づく画像テキスト共同エネルギー関数を導入し,CLIPに低エネルギーを実際の画像カプセルとそれ以外は高エネルギーに割り当てるよう訓練する。
差別的目的のために、我々は対向的対向的損失を採用し、対向的訓練目標をマルチモーダル領域に拡張する。
EB-CLIPはテキストからリアルな画像を生成するだけでなく、構成性ベンチマークの競合的な結果も得る。
さらに、CLIPベースの生成フレームワークを強化し、非条件拡散モデルをテキストベースに変換することで、EB-CLIPの優れたガイダンス能力を示す。
最後に, EB-CLIPはCLIPよりも, テキストから画像への生成作業において, より堅牢な評価基準として機能することを示す。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Elevating All Zero-Shot Sketch-Based Image Retrieval Through Multimodal Prompt Learning [11.033050922826934]
凍結したCLIPバックボーンで動作するように設計された,新しいマルチモーダル・プロンプト学習方式であるSpLIPを紹介する。
SpLIPは双方向のプロンプト共有戦略を実装し、CLIPのビジュアルエンコーダとテキストエンコーダ間の相互知識交換を可能にする。
埋め込み空間をさらに洗練するための2つの革新的な戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T01:30:42Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Extending CLIP's Image-Text Alignment to Referring Image Segmentation [48.26552693472177]
Referring Image(RIS)は、自然言語で記述されたインスタンスをセグメント化することを目的とした、クロスモーダルなタスクである。
RISCLIPは,RISのためのCLIPのクロスモーダルな性質を効果的に活用する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-06-14T13:27:28Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。
対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T13:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。