Fugu-MT 論文翻訳(概要): Fair Text-to-Image Diffusion via Fair Mapping

論文の概要: Fair Text-to-Image Diffusion via Fair Mapping

arxiv url: http://arxiv.org/abs/2311.17695v1
Date: Wed, 29 Nov 2023 15:02:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 20:55:29.993762
Title: Fair Text-to-Image Diffusion via Fair Mapping
Title（参考訳）: フェアマッピングによる公平なテキスト・画像拡散
Authors: Jia Li, Lijie Hu, Jingfeng Zhang, Tianhang Zheng, Hua Zhang, Di Wang
Abstract要約: 本稿では,事前訓練されたテキスト・ツー・イメージ・モデルに対して,公平な画像生成を実現するプロンプトを制御することによって,汎用的でモデルに依存しない軽量なアプローチを提案する。まず,テキスト誘導拡散モデルにおける言語バイアスによる生成結果のバイアス問題を示す。提案手法は,人間の顔に関する記述を刺激することで,画像生成性能を著しく向上することを示す。
参考スコア（独自算出の注目度）: 32.02815667307623
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we address the limitations of existing text-to-image diffusion models in generating demographically fair results when given human-related descriptions. These models often struggle to disentangle the target language context from sociocultural biases, resulting in biased image generation. To overcome this challenge, we propose Fair Mapping, a general, model-agnostic, and lightweight approach that modifies a pre-trained text-to-image model by controlling the prompt to achieve fair image generation. One key advantage of our approach is its high efficiency. The training process only requires updating a small number of parameters in an additional linear mapping network. This not only reduces the computational cost but also accelerates the optimization process. We first demonstrate the issue of bias in generated results caused by language biases in text-guided diffusion models. By developing a mapping network that projects language embeddings into an unbiased space, we enable the generation of relatively balanced demographic results based on a keyword specified in the prompt. With comprehensive experiments on face image generation, we show that our method significantly improves image generation performance when prompted with descriptions related to human faces. By effectively addressing the issue of bias, we produce more fair and diverse image outputs. This work contributes to the field of text-to-image generation by enhancing the ability to generate images that accurately reflect the intended demographic characteristics specified in the text.
Abstract（参考訳）: 本稿では,人為的な記述が与えられた場合に,人口統計学的に公正な結果を生成する上で,既存のテキスト・画像拡散モデルの限界に対処する。これらのモデルは、しばしば、ターゲット言語コンテキストを社会文化的バイアスから切り離すのに苦労し、バイアス画像生成をもたらす。この課題を克服するため,我々は,事前学習されたテキスト対画像モデルを修正する汎用的,モデル非依存,軽量な手法であるfair mappingを提案する。私たちのアプローチの重要な利点は、その高い効率です。トレーニングプロセスでは、追加の線形マッピングネットワークで少数のパラメータを更新するだけでよい。これは計算コストを削減するだけでなく、最適化プロセスも加速する。まず,テキスト誘導拡散モデルにおける言語バイアスによる生成結果のバイアスの問題を示す。言語埋め込みを非バイアス空間に投影するマッピングネットワークを開発することにより、プロンプトで指定されたキーワードに基づいて比較的バランスのとれた人口統計結果を生成することができる。顔画像生成に関する総合的な実験により,人間の顔に関する記述を刺激することで,画像生成性能が大幅に向上することを示す。バイアスの問題を効果的に解決することで、より公平で多様な画像出力が得られる。本研究は,テキストに指定された人口特性を正確に反映した画像を生成する能力を高めることで,テキスト・画像生成の分野に寄与する。

関連論文リスト

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [31.31018600797305]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文参考訳（メタデータ） (2025-06-03T16:44:15Z)
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。 Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文参考訳（メタデータ） (2025-05-29T16:15:48Z)
ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。 MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文参考訳（メタデータ） (2024-06-17T19:31:24Z)
Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-05-17T15:50:53Z)
FairRAG: Fair Human Generation via Fair Retrieval Augmentation [27.069276012884398]
本稿では,Fair Retrieval Augmented Generation (FairRAG)について紹介する。FairRAGは,外部画像データベースから取得した参照画像に事前学習した生成モデルを条件付けし,人間の生成における公平性を改善するためのフレームワークである。公平性を高めるために、FairRAGは単純なyet- Effective debiasing戦略を適用し、生成過程において多様な人口集団の画像を提供する。
論文参考訳（メタデータ） (2024-03-29T03:56:19Z)
UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文参考訳（メタデータ） (2023-12-08T07:47:46Z)
MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文参考訳（メタデータ） (2023-09-08T15:53:37Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文参考訳（メタデータ） (2023-05-18T05:41:36Z)
SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文参考訳（メタデータ） (2023-05-09T05:48:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。