論文の概要: Fair Text-to-Image Diffusion via Fair Mapping
- arxiv url: http://arxiv.org/abs/2311.17695v2
- Date: Wed, 6 Mar 2024 11:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:45:38.655958
- Title: Fair Text-to-Image Diffusion via Fair Mapping
- Title(参考訳): フェアマッピングによる公平なテキスト・画像拡散
- Authors: Jia Li, Lijie Hu, Jingfeng Zhang, Tianhang Zheng, Hua Zhang, Di Wang
- Abstract要約: 本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。
暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
- 参考スコア(独自算出の注目度): 32.02815667307623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the limitations of existing text-to-image diffusion
models in generating demographically fair results when given human-related
descriptions. These models often struggle to disentangle the target language
context from sociocultural biases, resulting in biased image generation. To
overcome this challenge, we propose Fair Mapping, a flexible, model-agnostic,
and lightweight approach that modifies a pre-trained text-to-image diffusion
model by controlling the prompt to achieve fair image generation. One key
advantage of our approach is its high efficiency. It only requires updating an
additional linear network with few parameters at a low computational cost. By
developing a linear network that maps conditioning embeddings into a debiased
space, we enable the generation of relatively balanced demographic results
based on the specified text condition. With comprehensive experiments on face
image generation, we show that our method significantly improves image
generation fairness with almost the same image quality compared to conventional
diffusion models when prompted with descriptions related to humans. By
effectively addressing the issue of implicit language bias, our method produces
more fair and diverse image outputs.
- Abstract(参考訳): 本稿では,人為的な記述が与えられた場合に,人口統計学的に公正な結果を生成する上で,既存のテキスト・画像拡散モデルの限界に対処する。
これらのモデルは、しばしば、ターゲット言語コンテキストを社会文化的バイアスから切り離すのに苦労し、バイアス画像生成をもたらす。
この課題を克服するため,我々は,事前学習したテキストから画像への拡散モデルを修正するフレキシブルでモデルに依存しない軽量な手法であるfair mappingを提案する。
私たちのアプローチの重要な利点は、その高い効率です。
計算コストが低ければ、パラメータ数が少ない追加の線形ネットワークを更新するだけでよい。
条件付けをデバイアス空間にマップする線形ネットワークを開発することにより,指定されたテキスト条件に基づいて,相対的にバランスの取れた人口統計結果を生成することができる。
顔画像生成に関する包括的実験により, 従来の拡散モデルと比較して, 画像品質はほぼ同じで, 画像生成の公平性を著しく向上することを示す。
暗黙的言語バイアスの問題を効果的に解決することで、より公平で多様な画像出力を生成する。
関連論文リスト
- ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - FairRAG: Fair Human Generation via Fair Retrieval Augmentation [27.069276012884398]
本稿では,Fair Retrieval Augmented Generation (FairRAG)について紹介する。FairRAGは,外部画像データベースから取得した参照画像に事前学習した生成モデルを条件付けし,人間の生成における公平性を改善するためのフレームワークである。
公平性を高めるために、FairRAGは単純なyet- Effective debiasing戦略を適用し、生成過程において多様な人口集団の画像を提供する。
論文 参考訳(メタデータ) (2024-03-29T03:56:19Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。