論文の概要: FairCoT: Enhancing Fairness in Diffusion Models via Chain of Thought Reasoning of Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2406.09070v2
- Date: Tue, 01 Oct 2024 22:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:41.209765
- Title: FairCoT: Enhancing Fairness in Diffusion Models via Chain of Thought Reasoning of Multimodal Language Models
- Title(参考訳): FairCoT:マルチモーダル言語モデルの思考推論の連鎖による拡散モデルの公平性向上
- Authors: Zahraa Al Sahili, Ioannis Patras, Matthew Purver,
- Abstract要約: このフレームワークは,Chain-of-Thought推論を通じて拡散モデルの公平性を高める。
FairCoTは画像の品質や関連性を損なうことなく、公平性と多様性の指標を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 14.632649933582648
- License:
- Abstract: In the domain of text-to-image generative models, biases inherent in training datasets often propagate into generated content, posing significant ethical challenges, particularly in socially sensitive contexts. We introduce FairCoT, a novel framework that enhances fairness in diffusion models through Chain-of-Thought (CoT) reasoning within multimodal generative large language models (LLMs). FairCoT employs iterative CoT refinement and attire-based attribute prediction to systematically mitigate biases, ensuring diverse and equitable representation in generated images. By integrating iterative reasoning processes, FairCoT addresses the limitations of zero-shot CoT in sensitive scenarios, balancing creativity with ethical responsibility. Experimental evaluations across multiple models, including DALL-E and various Stable Diffusion variants, demonstrate that FairCoT significantly improves fairness and diversity metrics without compromising image quality or relevance. Our approach advances ethical AI practices in generative modeling, promoting socially responsible content generation and setting new standards for fairness in AI-generated imagery.
- Abstract(参考訳): テキストから画像への生成モデルの領域では、トレーニングデータセットに固有のバイアスは、しばしば生成されたコンテンツに伝播し、特に社会的に敏感な文脈において重要な倫理的課題を生じさせる。
マルチモーダル生成型大規模言語モデル(LLM)内でのChain-of-Thought(CoT)推論を通じて拡散モデルの公平性を高める新しいフレームワークであるFairCoTを紹介する。
FairCoTは、反復的なCoTリファインメントと服装に基づく属性予測を使用して、バイアスを体系的に緩和し、生成された画像の多様性と平等な表現を保証する。
反復的推論プロセスを統合することで、FairCoTは機密シナリオにおけるゼロショットCoTの限界に対処し、創造性と倫理的責任のバランスを取る。
DALL-Eや様々な安定拡散変種を含む複数のモデルの実験的評価は、FairCoTが画像の品質や関連性を損なうことなく、公平性と多様性のメトリクスを著しく改善することを示した。
我々のアプローチは、生成モデリングにおける倫理的AIプラクティスを推進し、社会的に責任のあるコンテンツ生成を促進し、AI生成画像の公平性のための新しい標準を設定します。
関連論文リスト
- Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。
提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。
本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-02T15:43:13Z) - Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。
VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。
高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文 参考訳(メタデータ) (2025-01-01T18:27:13Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Fair Text-to-Image Diffusion via Fair Mapping [32.02815667307623]
本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。
暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T15:02:01Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。
TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。
実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文 参考訳(メタデータ) (2023-07-24T02:50:44Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。