論文の概要: Efficiency without Compromise: CLIP-aided Text-to-Image GANs with Increased Diversity
- arxiv url: http://arxiv.org/abs/2506.01493v1
- Date: Mon, 02 Jun 2025 09:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.293894
- Title: Efficiency without Compromise: CLIP-aided Text-to-Image GANs with Increased Diversity
- Title(参考訳): 妥協のない効率性:多様性を増したCLIP支援テキスト画像GAN
- Authors: Yuya Kobayashi, Yuhta Takida, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: テキスト・ツー・イメージ・タスクに適応したスライシング・アディバーショナル・ネットワーク(SAN)を用いた2つの特殊識別器を提案する。
提案手法はSCADと呼ばれ,より優れたサンプル忠実度を持つ与えられたプロンプトに対する多様性の顕著な向上を示す。
SCADは、最新の大規模GANと競合するゼロショットFIDを2桁の訓練コストで達成した。
- 参考スコア(独自算出の注目度): 15.548904715300777
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Generative Adversarial Networks (GANs) have been successfully scaled to billion-scale large text-to-image datasets. However, training such models entails a high training cost, limiting some applications and research usage. To reduce the cost, one promising direction is the incorporation of pre-trained models. The existing method of utilizing pre-trained models for a generator significantly reduced the training cost compared with the other large-scale GANs, but we found the model loses the diversity of generation for a given prompt by a large margin. To build an efficient and high-fidelity text-to-image GAN without compromise, we propose to use two specialized discriminators with Slicing Adversarial Networks (SANs) adapted for text-to-image tasks. Our proposed model, called SCAD, shows a notable enhancement in diversity for a given prompt with better sample fidelity. We also propose to use a metric called Per-Prompt Diversity (PPD) to evaluate the diversity of text-to-image models quantitatively. SCAD achieved a zero-shot FID competitive with the latest large-scale GANs at two orders of magnitude less training cost.
- Abstract(参考訳): 近年,GAN(Generative Adversarial Networks)は数十億の大規模テキスト・画像データセットに拡張されている。
しかし、そのようなモデルのトレーニングには高いトレーニングコストが伴い、いくつかのアプリケーションと研究利用が制限される。
コストを削減するために、ある有望な方向性は、事前訓練されたモデルの組み入れである。
既存の発電機に事前学習したモデルを利用する手法は、他の大規模GANと比較してトレーニングコストを大幅に削減するが、モデルが与えられたプロンプトに対する生成の多様性を大きなマージンで失うことがわかった。
そこで本稿では,テキスト・トゥ・イメージタスクに適応したスライシング・アディバーショナル・ネットワーク(SAN)を用いた2つの識別器を提案する。
提案手法はSCADと呼ばれ,より優れたサンプル忠実度を持つ与えられたプロンプトに対する多様性の顕著な向上を示す。
また,PSD(Per-Prompt Diversity)と呼ばれる指標を用いて,テキスト・画像モデルの多様性を定量的に評価することを提案する。
SCADは、最新の大規模GANと競合するゼロショットFIDを2桁の訓練コストで達成した。
関連論文リスト
- Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - UGC: Unified GAN Compression for Efficient Image-to-Image Translation [20.3126581529643]
我々はモデル効率とラベル効率の学習の相乗効果をシームレスに促進するための統一的な目的を持った新しい学習パラダイムUnified GAN Compression (UGC)を提案する。
異種相互学習スキームを定式化し、アーキテクチャに柔軟で、ラベル効率が高く、性能に優れたモデルを得る。
論文 参考訳(メタデータ) (2023-09-17T15:55:09Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Multiclass non-Adversarial Image Synthesis, with Application to
Classification from Very Small Sample [6.243995448840211]
我々は、新しい非逆生成法 - LA(Clustered Optimization of LAtent space)を提案する。
本手法は,全データレギュレーションにおいて,教師なしの多様なマルチクラス画像を生成することができる。
ラベル付き画像の小さなサンプルのみが、追加のラベル付きデータにアクセスせずにトレーニングできる小データ体制では、同じ量のデータでトレーニングされた最先端のGANモデルを上回る結果が得られる。
論文 参考訳(メタデータ) (2020-11-25T18:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。