論文の概要: CLUE: Controllable Latent space of Unprompted Embeddings for Diversity Management in Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2511.10993v1
- Date: Fri, 14 Nov 2025 06:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.452479
- Title: CLUE: Controllable Latent space of Unprompted Embeddings for Diversity Management in Text-to-Image Synthesis
- Title(参考訳): CLUE:テキスト・画像合成における多様性管理のための非プロンプテッド埋め込みの制御可能な潜在空間
- Authors: Keunwoo Park, Jihye Chae, Joong Ho Ahn, Jihoon Kweon,
- Abstract要約: テキストと画像の合成モデルは、安定性を維持しながら多様な画像を生成する能力を必要とする。
本稿では,固定形式プロンプトによる安定性を維持しつつ,多様な生成を実現する生成モデルフレームワークであるCLUEを提案する。
その結果、CLUEは限られたデータセットから多種多様な安定な画像生成を可能にし、ドメイン固有のアプリケーションに有効なデータ拡張手法として機能することを示した。
- 参考スコア(独自算出の注目度): 1.2416206871977307
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text-to-image synthesis models require the ability to generate diverse images while maintaining stability. To overcome this challenge, a number of methods have been proposed, including the collection of prompt-image datasets and the integration of additional data modalities during training. Although these methods have shown promising results in general domains, they face limitations when applied to specialized fields such as medicine, where only limited types and insufficient amounts of data are available. We present CLUE (Controllable Latent space of Unprompted Embeddings), a generative model framework that achieves diverse generation while maintaining stability through fixed-format prompts without requiring any additional data. Based on the Stable Diffusion architecture, CLUE employs a Style Encoder that processes images and prompts to generate style embeddings, which are subsequently fed into a new second attention layer of the U-Net architecture. Through Kullback-Leibler divergence, the latent space achieves continuous representation of image features within Gaussian regions, independent of prompts. Performance was assessed on otitis media dataset. CLUE reduced FID to 9.30 (vs. 46.81) and improved recall to 70.29% (vs. 49.60%). A classifier trained on synthetic-only data at 1000% scale achieved an F1 score of 83.21% (vs. 73.83%). Combining synthetic data with equal amounts of real data achieved an F1 score of 94.76%, higher than when using only real data. On an external dataset, synthetic-only training achieved an F1 score of 76.77% (vs. 60.61%) at 1000% scale. The combined approach achieved an F1 score of 85.78%, higher than when using only the internal dataset. These results demonstrate that CLUE enables diverse yet stable image generation from limited datasets and serves as an effective data augmentation method for domain-specific applications.
- Abstract(参考訳): テキストと画像の合成モデルは、安定性を維持しながら多様な画像を生成する能力を必要とする。
この課題を解決するために、プロンプトイメージデータセットの収集や、トレーニング中に追加のデータモダリティの統合など、いくつかの方法が提案されている。
これらの手法は一般的な領域では有望な結果を示しているが、医学などの専門分野に適用する場合は、限られた種類と不十分な量のデータしか利用できない限界に直面している。
CLUE(Controllable Latent space of Unprompted Embeddings)は、データの追加を必要とせず、固定形式プロンプトによる安定性を維持しつつ、多様な生成を実現する生成モデルフレームワークである。
安定拡散アーキテクチャに基づいて、CLUEはスタイルエンコーダを使用してイメージを処理し、スタイル埋め込みを生成する。
Kullback-Leibler の発散を通じて、潜在空間はプロンプトとは独立にガウス領域内の画像特徴の連続表現を達成する。
耳炎メディアデータセットを用いて評価した。
CLUEはFIDを9.30 (vs. 46.81)、リコールを70.29% (vs. 49.60%)改善した。
1000%スケールで合成専用データに基づいて訓練された分類器は、F1スコアが83.21%(vs.73.83%)に達した。
合成データを同じ量の実データと組み合わせることで、F1スコアは94.76%に達した。
外部データセットでは、1000%のスケールでF1スコアが76.77%(vs. 60.61%)に達した。
統合されたアプローチはF1スコア85.78%を達成し、内部データセットのみを使用する場合よりも高かった。
これらの結果は、CLUEが限られたデータセットから多種多様な安定な画像生成を可能にし、ドメイン固有のアプリケーションに有効なデータ拡張手法として機能することを実証している。
関連論文リスト
- Increasing the Utility of Synthetic Images through Chamfer Guidance [24.64550332298589]
Chamfer Guidanceは、合成データの質と多様性を特徴付けるトレーニング不要なガイダンスアプローチである。
提案手法は,2枚以上の実画像を用いて,最先端の撮影性能を実現する。
論文 参考訳(メタデータ) (2025-08-14T13:31:24Z) - LoFT: LoRA-fused Training Dataset Generation with Few-shot Guidance [96.6544564242316]
本稿では,Few-shot Guidanceを用いたLoRA-Fused Training-data Generationという新しいデータセット生成フレームワークを提案する。
提案手法は,個々の実画像にLoRA重みを微調整し,推定時に融合させ,実画像の特徴を組み合わせた合成画像を生成し,データの多様性と忠実度を向上させる。
実験の結果,LoFT生成データに対するトレーニングは,他の合成データセット法より一貫して優れており,データセットのサイズが大きくなるにつれて精度が著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-05-16T21:17:55Z) - DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - PrivImage: Differentially Private Synthetic Image Generation using Diffusion Models with Semantic-Aware Pretraining [13.823621924706348]
差分プライバシー(DP)画像データ合成により、企業はプライバシの懸念なしに合成画像を共有し、利用することができる。
従来の手法では、生成モデルの高度な技術と、公開データセットでの事前学習を取り入れて、例外的なDP画像データを生成する。
本稿では,事前学習データを慎重に選択する新しいDP画像合成手法PRIVIMAGEを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:04:53Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Differentially Private Diffusion Models Generate Useful Synthetic Images [53.94025967603649]
近年の研究では、いくつかの拡散モデルの出力がトレーニングデータのプライバシを保持していないことが報告されている。
CIFAR-10 と Camelyon17 のSOTA 結果を得た。
以上の結果から,差分プライバシーで微調整された拡散モデルが有用かつ実証可能なプライベートな合成データを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-02-27T15:02:04Z) - Multiclass non-Adversarial Image Synthesis, with Application to
Classification from Very Small Sample [6.243995448840211]
我々は、新しい非逆生成法 - LA(Clustered Optimization of LAtent space)を提案する。
本手法は,全データレギュレーションにおいて,教師なしの多様なマルチクラス画像を生成することができる。
ラベル付き画像の小さなサンプルのみが、追加のラベル付きデータにアクセスせずにトレーニングできる小データ体制では、同じ量のデータでトレーニングされた最先端のGANモデルを上回る結果が得られる。
論文 参考訳(メタデータ) (2020-11-25T18:47:27Z) - Differentiable Augmentation for Data-Efficient GAN Training [48.920992130257595]
DiffAugmentは,実検体と偽検体の両方に様々な種類の微分可能拡張を付与することにより,GANのデータ効率を向上させる簡易な手法である。
本手法は,既存の移動学習アルゴリズムと同等でありながら,事前学習することなく,100個の画像のみを用いて高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2020-06-18T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。