論文の概要: GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2301.12959v1
- Date: Mon, 30 Jan 2023 14:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 14:13:52.293381
- Title: GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis
- Title(参考訳): GALIP:テキスト対画像合成のための生成的逆CLIP
- Authors: Ming Tao, Bing-Kun Bao, Hao Tang, Changsheng Xu
- Abstract要約: 本稿では,高品質,効率的,高速,かつ制御可能なテキスト・ツー・イメージ合成を実現するために,ジェネレーティブ・アドリラルCLIPを提案する。
本モデルは合成速度を120倍に向上し, GANからスムーズな潜伏空間を継承する。
- 参考スコア(独自算出の注目度): 74.71986888051381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing high-fidelity complex images from text is challenging. Based on
large pretraining, the autoregressive and diffusion models can synthesize
photo-realistic images. Although these large models have shown notable
progress, there remain three flaws. 1) These models require tremendous training
data and parameters to achieve good performance. 2) The multi-step generation
design slows the image synthesis process heavily. 3) The synthesized visual
features are difficult to control and require delicately designed prompts. To
enable high-quality, efficient, fast, and controllable text-to-image synthesis,
we propose Generative Adversarial CLIPs, namely GALIP. GALIP leverages the
powerful pretrained CLIP model both in the discriminator and generator.
Specifically, we propose a CLIP-based discriminator. The complex scene
understanding ability of CLIP enables the discriminator to accurately assess
the image quality. Furthermore, we propose a CLIP-empowered generator that
induces the visual concepts from CLIP through bridge features and prompts. The
CLIP-integrated generator and discriminator boost training efficiency, and as a
result, our model only requires about 3% training data and 6% learnable
parameters, achieving comparable results to large pretrained autoregressive and
diffusion models. Moreover, our model achieves 120 times faster synthesis speed
and inherits the smooth latent space from GAN. The extensive experimental
results demonstrate the excellent performance of our GALIP. Code is available
at https://github.com/tobran/GALIP.
- Abstract(参考訳): テキストから高精細な複雑な画像を合成するのは難しい。
大規模な事前トレーニングに基づいて、自己回帰モデルと拡散モデルはフォトリアリスティック画像を合成することができる。
これらの大型モデルは顕著な進歩を見せているが、3つの欠点が残っている。
1)これらのモデルは、優れたパフォーマンスを達成するために、膨大なトレーニングデータとパラメータが必要です。
2) マルチステップ生成設計は画像合成過程を著しく遅くする。
3) 合成視覚特徴は制御が困難であり, 微妙なプロンプトが要求される。
高品質,効率的,高速,かつ制御可能なテキスト・ツー・イメージ合成を実現するため,GALIP(Generative Adversarial CLIPs)を提案する。
GALIPは、識別器とジェネレータの両方で、強力な事前訓練されたCLIPモデルを活用する。
具体的には,CLIPに基づく判別器を提案する。
CLIPの複雑なシーン理解能力により、判別器は画像の品質を正確に評価できる。
さらに,橋梁の特徴とプロンプトを通してCLIPから視覚概念を誘導するCLIPを利用したジェネレータを提案する。
このCLIP統合ジェネレータと識別器はトレーニング効率を向上し,本モデルではトレーニングデータ約3%と学習可能なパラメータ6%しか必要とせず,事前学習した大規模な自己回帰モデルと拡散モデルに匹敵する結果が得られる。
さらに,本モデルは合成速度を120倍に向上し,GANからスムーズな潜在空間を継承する。
広範な実験結果から,galipの優れた性能が得られた。
コードはhttps://github.com/tobran/GALIPで入手できる。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。
特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文 参考訳(メタデータ) (2024-02-20T18:59:55Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN
Space Optimization [37.318948462348054]
我々は、リトレーニングされたCLIP表現のパワーとオフザシェルフ画像生成器(GAN)を組み合わせることで、テキスト・ツー・イメージ生成にアプローチする。
異なる入力テキストによってプロモートされた場合、FuseDreamは、さまざまなオブジェクト、背景、芸術スタイル、さらには私たちが使用するトレーニングデータに現れない斬新な偽造概念を含む、高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2021-12-02T19:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。