論文の概要: Rethinking Training for De-biasing Text-to-Image Generation: Unlocking the Potential of Stable Diffusion
- arxiv url: http://arxiv.org/abs/2408.12692v2
- Date: Thu, 27 Mar 2025 07:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:49:28.658100
- Title: Rethinking Training for De-biasing Text-to-Image Generation: Unlocking the Potential of Stable Diffusion
- Title(参考訳): テキスト・画像生成の非バイアス化のための再考:安定拡散の可能性の解き放つ
- Authors: Eunji Kim, Siwon Kim, Minjun Park, Rahim Entezari, Sungroh Yoon,
- Abstract要約: 既存の脱バイアス技術は追加の訓練に大きく依存している。
これにより、現実世界のアプリケーションに広く採用されるのを妨げます。
本稿では,少数地域にランダムノイズを誘導する「弱誘導」という新しい脱バイアス手法を提案する。
- 参考スコア(独自算出の注目度): 39.84423168718079
- License:
- Abstract: Recent advancements in text-to-image models, such as Stable Diffusion, show significant demographic biases. Existing de-biasing techniques rely heavily on additional training, which imposes high computational costs and risks of compromising core image generation functionality. This hinders them from being widely adopted to real-world applications. In this paper, we explore Stable Diffusion's overlooked potential to reduce bias without requiring additional training. Through our analysis, we uncover that initial noises associated with minority attributes form "minority regions" rather than scattered. We view these "minority regions" as opportunities in SD to reduce bias. To unlock the potential, we propose a novel de-biasing method called 'weak guidance,' carefully designed to guide a random noise to the minority regions without compromising semantic integrity. Through analysis and experiments on various versions of SD, we demonstrate that our proposed approach effectively reduces bias without additional training, achieving both efficiency and preservation of core image generation functionality.
- Abstract(参考訳): 安定拡散(Stable Diffusion)のようなテキスト・ツー・イメージ・モデルの最近の進歩は、大きな人口統計学的バイアスを示している。
既存のバイアス除去技術は、高い計算コストとコア画像生成機能の妥協のリスクを課す追加のトレーニングに大きく依存している。
これにより、現実世界のアプリケーションに広く採用されるのを妨げます。
本稿では, 新たなトレーニングを必要とせず, バイアスを低減するための安定拡散の可能性について検討する。
分析の結果,少数属性に関連付けられた初期ノイズが分散ではなく「マイノリティ領域」を形成していることが判明した。
我々はこれらの「マイノリティ領域」を、バイアスを減らすためのSDの機会と見なしている。
この可能性を解き明かすため, マイノリティ領域にランダムノイズを誘導する手法として, 意味的整合性を損なうことなく, マイノリティ領域にランダムノイズを誘導する手法「弱案内」を提案する。
SDの様々なバージョンに関する解析と実験により,提案手法は,新たなトレーニングを伴わずにバイアスを効果的に低減し,コア画像生成機能の効率性と保存性を両立することを示した。
関連論文リスト
- When Text and Images Don't Mix: Bias-Correcting Language-Image Similarity Scores for Anomaly Detection [35.09035417676343]
テキスト入力の埋め込みは、モデルの対照的な訓練目標とは対照的に、画像埋め込みから遠ざかって、予期せず密集していることを示す。
本稿では,この類似性バイアスを補助的,外部的なテキスト入力を用いて直接考慮するBLISSという手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T08:20:02Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models [82.8261101680427]
滑らかな潜伏空間は、入力潜伏空間上の摂動が出力画像の定常的な変化に対応することを保証している。
この特性は、画像の反転、反転、編集を含む下流タスクにおいて有益である。
スムース拡散(Smooth Diffusion, Smooth Diffusion)は, 高速かつスムーズな拡散モデルである。
論文 参考訳(メタデータ) (2023-12-07T16:26:23Z) - Fair Text-to-Image Diffusion via Fair Mapping [32.02815667307623]
本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。
暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T15:02:01Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Fuzzy-Conditioned Diffusion and Diffusion Projection Attention Applied
to Facial Image Correction [14.34815548338413]
我々は、暗黙の拡散先行を制御可能な強度で活用できるファジィ条件拡散を導出する。
本稿では,ファジィ条件の拡散と拡散依存性の注意マップを組み合わせた顔画像補正手法を提案する。
論文 参考訳(メタデータ) (2023-06-26T17:58:00Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。