論文の概要: FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing
- arxiv url: http://arxiv.org/abs/2502.03826v1
- Date: Thu, 06 Feb 2025 07:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:42.186633
- Title: FairT2I: Mitigating Social Bias in Text-to-Image Generation via Large Language Model-Assisted Detection and Attribute Rebalancing
- Title(参考訳): FairT2I:大規模言語モデルによるソーシャルバイアスの緩和と属性再分散
- Authors: Jinya Sakurai, Issei Sato,
- Abstract要約: 本稿では,T2I生成における社会的バイアスの検出と緩和に,大規模言語モデルを活用する新しいフレームワークであるFairT2Iを紹介する。
以上の結果から,FairT2Iは社会的偏見を緩和し,画像の感度特性の多様性を高めることができた。
- 参考スコア(独自算出の注目度): 32.01426831450348
- License:
- Abstract: The proliferation of Text-to-Image (T2I) models has revolutionized content creation, providing powerful tools for diverse applications ranging from artistic expression to educational material development and marketing. Despite these technological advancements, significant ethical concerns arise from these models' reliance on large-scale datasets that often contain inherent societal biases. These biases are further amplified when AI-generated content is included in training data, potentially reinforcing and perpetuating stereotypes in the generated outputs. In this paper, we introduce FairT2I, a novel framework that harnesses large language models to detect and mitigate social biases in T2I generation. Our framework comprises two key components: (1) an LLM-based bias detection module that identifies potential social biases in generated images based on text prompts, and (2) an attribute rebalancing module that fine-tunes sensitive attributes within the T2I model to mitigate identified biases. Our extensive experiments across various T2I models and datasets show that FairT2I can significantly reduce bias while maintaining high-quality image generation. We conducted both qualitative user studies and quantitative non-parametric analyses in the generated image feature space, building upon the occupational dataset introduced in the Stable Bias study. Our results show that FairT2I successfully mitigates social biases and enhances the diversity of sensitive attributes in generated images. We further demonstrate, using the P2 dataset, that our framework can detect subtle biases that are challenging for human observers to perceive, extending beyond occupation-related prompts. On the basis of these findings, we introduce a new benchmark dataset for evaluating bias in T2I models.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルの普及はコンテンツ制作に革命をもたらし、芸術的表現から教育用教材開発、マーケティングまで幅広い用途に強力なツールを提供している。
これらの技術的進歩にもかかわらず、これらのモデルが社会的バイアスをしばしば含んでいる大規模なデータセットに依存していることから、重大な倫理的懸念が生じる。
これらのバイアスは、AI生成コンテンツがトレーニングデータに含まれ、生成された出力のステレオタイプを強化し、永続する可能性がある場合にさらに増幅される。
本稿では,大規模言語モデルを用いてT2I生成における社会的バイアスを検出し緩和するフレームワークであるFairT2Iを紹介する。
本フレームワークは,(1)テキストのプロンプトに基づいて生成画像の潜在的な社会的バイアスを識別するLLMベースのバイアス検出モジュール,(2)T2Iモデル内の感度特性を微調整し,バイアスを緩和する属性再バランスモジュールの2つの重要なコンポーネントから構成される。
様々なT2Iモデルとデータセットにわたる広範な実験により、高品質な画像生成を維持しながら、FairT2Iはバイアスを大幅に低減できることが示された。
本研究では,画像特徴空間における定性的ユーザスタディと定量的非パラメトリック分析の両方を,安定バイアス研究で導入された職業的データセットに基づいて実施した。
以上の結果から,FairT2Iは社会的偏見を緩和し,画像の感度特性の多様性を高めることができた。
さらに、P2データセットを使用して、我々のフレームワークが人間の観察者が知覚しにくい微妙な偏見を検知できることを実証する。
これらの結果に基づいて,T2Iモデルのバイアス評価のための新しいベンチマークデータセットを提案する。
関連論文リスト
- Text-to-Image Synthesis: A Decade Survey [7.250878248686215]
テキスト・ツー・イメージ合成(T2I)は、テキスト記述から高品質な画像を生成することに焦点を当てている。
本調査では,T2Iに関する最近の研究440件について概説する。
論文 参考訳(メタデータ) (2024-11-25T07:40:32Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Evaluating the Generation of Spatial Relations in Text and Image Generative Models [4.281091463408283]
空間関係は自然に空間的に理解される。
我々は、LLM出力を画像に変換するアプローチを開発し、T2IモデルとLLMの両方を評価する。
驚くべきことに、T2Iモデルは印象的な画像生成能力にもかかわらず、サブパー性能しか達成できないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T09:30:02Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
所望のプロパティの出現を促進するオンラインプロンプト最適化フレームワークを開発した。
次に、このジェネリックプロンプトを、マイノリティーな特徴の生成を促進する特殊な解決器に仕立てる。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - BIGbench: A Unified Benchmark for Social Bias in Text-to-Image Generative Models Based on Multi-modal LLM [8.24274551090375]
画像生成のバイアスの統一ベンチマークであるBIGbenchを紹介する。
既存のベンチマークとは異なり、BIGbenchは4次元にわたるバイアスを分類し評価する。
また, 蒸留効果や無関係な保護属性など, バイアスに関する新たな研究方向を明らかにした。
論文 参考訳(メタデータ) (2024-07-21T18:09:40Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - FAIntbench: A Holistic and Precise Benchmark for Bias Evaluation in Text-to-Image Models [7.30796695035169]
FAIntbenchは、テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスの総合的かつ正確なベンチマークである。
我々はFAIntbenchを7種類の大規模T2Iモデルの評価に適用し,人間による評価を行った。
その結果, FAIntbenchが種々のバイアスの同定に有効であった。
論文 参考訳(メタデータ) (2024-05-28T04:18:00Z) - Survey of Bias In Text-to-Image Generation: Definition, Evaluation, and Mitigation [47.770531682802314]
単純なプロンプトであっても、T2Iモデルは生成された画像に顕著な社会的偏見を示す可能性がある。
本研究は,T2I生成モデルにおけるバイアスに関する最初の広範な調査である。
これらの作業がどのようにしてバイアスの異なる側面を定義し、評価し、緩和するかについて議論する。
論文 参考訳(メタデータ) (2024-04-01T10:19:05Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。