論文の概要: MinorityPrompt: Text to Minority Image Generation via Prompt Optimization
- arxiv url: http://arxiv.org/abs/2410.07838v1
- Date: Thu, 10 Oct 2024 11:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 14:25:50.519438
- Title: MinorityPrompt: Text to Minority Image Generation via Prompt Optimization
- Title(参考訳): MinorityPrompt: Prompt最適化によるテキストからマイナー画像生成
- Authors: Soobin Um, Jong Chul Ye,
- Abstract要約: 本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。
次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
- 参考スコア(独自算出の注目度): 57.319845580050924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the generation of minority samples using pretrained text-to-image (T2I) latent diffusion models. Minority instances, in the context of T2I generation, can be defined as ones living on low-density regions of text-conditional data distributions. They are valuable for various applications of modern T2I generators, such as data augmentation and creative AI. Unfortunately, existing pretrained T2I diffusion models primarily focus on high-density regions, largely due to the influence of guided samplers (like CFG) that are essential for producing high-quality generations. To address this, we present a novel framework to counter the high-density-focus of T2I diffusion models. Specifically, we first develop an online prompt optimization framework that can encourage the emergence of desired properties during inference while preserving semantic contents of user-provided prompts. We subsequently tailor this generic prompt optimizer into a specialized solver that promotes the generation of minority features by incorporating a carefully-crafted likelihood objective. Our comprehensive experiments, conducted across various types of T2I models, demonstrate that our approach significantly enhances the capability to produce high-quality minority instances compared to existing samplers.
- Abstract(参考訳): 本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
T2I生成の文脈における小ささのインスタンスは、テキスト条件のデータ分布の低密度領域に生きるものとして定義することができる。
これらは、データ拡張やクリエイティブAIなど、現代のT2Iジェネレータの様々な応用に有用である。
残念ながら、既存の事前訓練されたT2I拡散モデルは、主に高密度領域に焦点を当てている。
そこで本研究では,T2I拡散モデルの高密度焦点に対応する新しい枠組みを提案する。
具体的には、まず、ユーザが提供するプロンプトのセマンティックな内容を保持しながら、推論中に所望のプロパティの出現を促すオンラインプロンプト最適化フレームワークを開発する。
続いて、この汎用的なプロンプトオプティマイザを、慎重に構築された可能性目標を組み込むことで、マイノリティ特徴の生成を促進する特殊な解決器に仕立てる。
様々な種類のT2Iモデルを用いて実施した包括的実験により,本手法は既存のサンプルモデルと比較して,高品質なマイノリティインスタンスを生成する能力を著しく向上することを示した。
関連論文リスト
- Boost-and-Skip: A Simple Guidance-Free Diffusion for Minority Generation [57.19995625893062]
拡散モデルを用いて少数サンプルを生成するために,Boost-and-Skipと呼ばれる強力なガイダンスのない手法を提案する。
これらの一見自明な修正は、確固たる理論と実証的な証拠によって支えられていることを強調する。
我々の実験は、Boost-and-Skipが少数サンプルを生成する能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-10T14:37:26Z) - FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing [32.01426831450348]
本稿では,T2I生成における社会的バイアスの検出と緩和に,大規模言語モデルを活用する新しいフレームワークであるFairT2Iを紹介する。
以上の結果から,FairT2Iは社会的偏見を緩和し,画像の感度特性の多様性を高めることができた。
論文 参考訳(メタデータ) (2025-02-06T07:22:57Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - PromptLA: Towards Integrity Verification of Black-box Text-to-Image Diffusion Models [16.67563247104523]
現在のテキスト・ツー・イメージ(T2I)拡散モデルは高品質な画像を生成することができる。
良心的な目的のためにのみこのモデルを使用することを許可された悪意あるユーザーは、自分のモデルを変更して、有害な社会的影響をもたらす画像を生成するかもしれない。
本稿では,T2I拡散モデルの高精度かつ高精度な完全性検証のための新しいプロンプト選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-20T07:24:32Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - Controllable Generation with Text-to-Image Diffusion Models: A Survey [8.394970202694529]
制御可能な生成研究は、新しい条件をサポートするために事前訓練されたテキスト・ツー・イメージ(T2I)モデルを制御することを目的としている。
本稿では拡散確率モデルについて概説する。
次に,拡散モデルの制御機構を明らかにする。
論文 参考訳(メタデータ) (2024-03-07T07:24:18Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image
Generation using Limited Data [20.998032566820907]
本稿では,大規模ソースデータセット上で事前学習したDDPMを限定データを用いて対象ドメインに適応する新しいDomainStudioアプローチを提案する。
ソースドメインが提供する主題の多様性を維持し、ターゲットドメインに高品質で多様な適応型サンプルを取得するように設計されている。
論文 参考訳(メタデータ) (2023-06-25T07:40:39Z) - Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators [12.053125079460234]
このような環境要因に対する任意の介入をシミュレートするために、現代のT2Iジェネレータがどのように使用できるかを示す。
我々の経験的発見は、安定拡散のような現代のT2Iジェネレータが、強力な介入データ拡張メカニズムとして実際に使用できることを示している。
論文 参考訳(メタデータ) (2022-12-21T18:07:39Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。