Fugu-MT 論文翻訳(概要): MinorityPrompt: Text to Minority Image Generation via Prompt Optimization

論文の概要: MinorityPrompt: Text to Minority Image Generation via Prompt Optimization

arxiv url: http://arxiv.org/abs/2410.07838v1
Date: Thu, 10 Oct 2024 11:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 14:25:50.519438
Title: MinorityPrompt: Text to Minority Image Generation via Prompt Optimization
Title（参考訳）: MinorityPrompt: Prompt最適化によるテキストからマイナー画像生成
Authors: Soobin Um, Jong Chul Ye,
Abstract要約: 本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
参考スコア（独自算出の注目度）: 57.319845580050924
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the generation of minority samples using pretrained text-to-image (T2I) latent diffusion models. Minority instances, in the context of T2I generation, can be defined as ones living on low-density regions of text-conditional data distributions. They are valuable for various applications of modern T2I generators, such as data augmentation and creative AI. Unfortunately, existing pretrained T2I diffusion models primarily focus on high-density regions, largely due to the influence of guided samplers (like CFG) that are essential for producing high-quality generations. To address this, we present a novel framework to counter the high-density-focus of T2I diffusion models. Specifically, we first develop an online prompt optimization framework that can encourage the emergence of desired properties during inference while preserving semantic contents of user-provided prompts. We subsequently tailor this generic prompt optimizer into a specialized solver that promotes the generation of minority features by incorporating a carefully-crafted likelihood objective. Our comprehensive experiments, conducted across various types of T2I models, demonstrate that our approach significantly enhances the capability to produce high-quality minority instances compared to existing samplers.
Abstract（参考訳）: 本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。 T2I生成の文脈における小ささのインスタンスは、テキスト条件のデータ分布の低密度領域に生きるものとして定義することができる。これらは、データ拡張やクリエイティブAIなど、現代のT2Iジェネレータの様々な応用に有用である。残念ながら、既存の事前訓練されたT2I拡散モデルは、主に高密度領域に焦点を当てている。そこで本研究では,T2I拡散モデルの高密度焦点に対応する新しい枠組みを提案する。具体的には、まず、ユーザが提供するプロンプトのセマンティックな内容を保持しながら、推論中に所望のプロパティの出現を促すオンラインプロンプト最適化フレームワークを開発する。続いて、この汎用的なプロンプトオプティマイザを、慎重に構築された可能性目標を組み込むことで、マイノリティ特徴の生成を促進する特殊な解決器に仕立てる。様々な種類のT2Iモデルを用いて実施した包括的実験により,本手法は既存のサンプルモデルと比較して,高品質なマイノリティインスタンスを生成する能力を著しく向上することを示した。

関連論文リスト

Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models [5.282669911393826]
本稿では,ユーザプロファイリングをトランスフォーマーベースのアダプタと統合し,パーソナライズ可能なDrUMを提案する。 DrUMは大規模なデータセットで強力なパフォーマンスを示し、オープンソースのテキストエンコーダとシームレスに統合する。
論文参考訳（メタデータ） (2025-08-05T14:14:55Z)
Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文参考訳（メタデータ） (2025-03-28T06:23:29Z)
Boost-and-Skip: A Simple Guidance-Free Diffusion for Minority Generation [57.19995625893062]
拡散モデルを用いて少数サンプルを生成するために,Boost-and-Skipと呼ばれる強力なガイダンスのない手法を提案する。これらの一見自明な修正は、確固たる理論と実証的な証拠によって支えられていることを強調する。我々の実験は、Boost-and-Skipが少数サンプルを生成する能力を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-02-10T14:37:26Z)
FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing [32.01426831450348]
本稿では,T2I生成における社会的バイアスの検出と緩和に,大規模言語モデルを活用する新しいフレームワークであるFairT2Iを紹介する。以上の結果から,FairT2Iは社会的偏見を緩和し,画像の感度特性の多様性を高めることができた。
論文参考訳（メタデータ） (2025-02-06T07:22:57Z)
PromptLA: Towards Integrity Verification of Black-box Text-to-Image Diffusion Models [17.12906933388337]
悪意のあるアクターは、不正なコンテンツを生成するためにT2I拡散モデルを微調整することができる。本稿では,学習オートマトン(PromptLA)に基づく新しいプロンプト選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-20T07:24:32Z)
Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文参考訳（メタデータ） (2024-06-10T15:42:03Z)
Controllable Generation with Text-to-Image Diffusion Models: A Survey [8.394970202694529]
制御可能な生成研究は、新しい条件をサポートするために事前訓練されたテキスト・ツー・イメージ(T2I)モデルを制御することを目的としている。本稿では拡散確率モデルについて概説する。次に,拡散モデルの制御機構を明らかにする。
論文参考訳（メタデータ） (2024-03-07T07:24:18Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data [20.998032566820907]
本稿では,大規模ソースデータセット上で事前学習したDDPMを限定データを用いて対象ドメインに適応する新しいDomainStudioアプローチを提案する。ソースドメインが提供する主題の多様性を維持し、ターゲットドメインに高品質で多様な適応型サンプルを取得するように設計されている。
論文参考訳（メタデータ） (2023-06-25T07:40:39Z)
Don't Play Favorites: Minority Guidance for Diffusion Models [59.75996752040651]
本稿では,拡散モデルの生成過程をマイノリティ標本に集中させる新しい枠組みを提案する。我々は、所望の確率レベルを持つ領域に向けて生成過程をガイドできるサンプリング技術であるマイノリティガイダンスを開発する。
論文参考訳（メタデータ） (2023-01-29T03:08:47Z)
Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators [12.053125079460234]
このような環境要因に対する任意の介入をシミュレートするために、現代のT2Iジェネレータがどのように使用できるかを示す。我々の経験的発見は、安定拡散のような現代のT2Iジェネレータが、強力な介入データ拡張メカニズムとして実際に使用できることを示している。
論文参考訳（メタデータ） (2022-12-21T18:07:39Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。