論文の概要: Debiasing Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.14577v1
- Date: Thu, 22 Feb 2024 14:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 14:52:25.384997
- Title: Debiasing Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのデバイアス化
- Authors: Ruifei He, Chuhui Xue, Haoru Tan, Wenqing Zhang, Yingchen Yu, Song
Bai, and Xiaojuan Qi
- Abstract要約: 学習ベースのテキスト・トゥ・イメージ(TTI)モデルは、さまざまなドメインで視覚コンテンツを生成する方法に革命をもたらした。
近年の研究では、現在最先端のTTIシステムに非無視的な社会的バイアスが存在することが示されている。
- 参考スコア(独自算出の注目度): 84.46750441518697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based Text-to-Image (TTI) models like Stable Diffusion have
revolutionized the way visual content is generated in various domains. However,
recent research has shown that nonnegligible social bias exists in current
state-of-the-art TTI systems, which raises important concerns. In this work, we
target resolving the social bias in TTI diffusion models. We begin by
formalizing the problem setting and use the text descriptions of bias groups to
establish an unsafe direction for guiding the diffusion process. Next, we
simplify the problem into a weight optimization problem and attempt a
Reinforcement solver, Policy Gradient, which shows sub-optimal performance with
slow convergence. Further, to overcome limitations, we propose an iterative
distribution alignment (IDA) method. Despite its simplicity, we show that IDA
shows efficiency and fast convergence in resolving the social bias in TTI
diffusion models. Our code will be released.
- Abstract(参考訳): 学習ベースのテキスト・トゥ・イメージ(TTI)モデルであるStable Diffusionは、さまざまなドメインで視覚コンテンツを生成する方法に革命をもたらした。
しかし、最近の研究では、現在最先端のTTIシステムに非無視的な社会的バイアスが存在することが示されており、重要な懸念を提起している。
本研究では,TTI拡散モデルにおける社会的バイアスの解消を目的とした。
まず,問題設定を定式化し,バイアス群のテキスト記述を用いて拡散過程を導くための安全でない方向性を確立する。
次に,この問題を重み付け最適化問題に単純化し,収束の遅い準最適性能を示すReinforcement Solutionr, Policy Gradientを試行する。
さらに,制限を克服するために,反復分布アライメント(IDA)法を提案する。
その単純さにもかかわらず、IDAはTTI拡散モデルにおける社会的バイアスの解消における効率と迅速な収束を示す。
私たちのコードはリリースされます。
関連論文リスト
- Constrained Diffusion with Trust Sampling [11.354281911272864]
我々は、最適化の観点から、トレーニングなし損失誘導拡散を再考する。
トラストサンプリングは、無条件拡散モデルに従って効果的にバランスをとり、損失誘導に固執する。
複雑なタスクや画像の領域や3Dモーション生成の領域で広範囲にわたる実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-17T01:34:57Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Prompt-tuning latent diffusion models for inverse problems [72.13952857287794]
本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。
P2Lと呼ばれる本手法は,超解像,デブロアリング,インパインティングなどの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。
論文 参考訳(メタデータ) (2023-10-02T11:31:48Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Eliminating Lipschitz Singularities in Diffusion Models [51.806899946775076]
拡散モデルは、時間ステップの零点付近で無限のリプシッツをしばしば表すことを示す。
これは、積分演算に依存する拡散過程の安定性と精度に脅威をもたらす。
我々はE-TSDMと呼ばれる新しい手法を提案し、これは0に近い拡散モデルのリプシッツを除去する。
論文 参考訳(メタデータ) (2023-06-20T03:05:28Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。