Fugu-MT 論文翻訳(概要): FairCoT: Enhancing Fairness in Text-to-Image Generation via Chain of Thought Reasoning with Multimodal Large Language Models

論文の概要: FairCoT: Enhancing Fairness in Text-to-Image Generation via Chain of Thought Reasoning with Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2406.09070v3
Date: Sun, 16 Feb 2025 19:55:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.244492
Title: FairCoT: Enhancing Fairness in Text-to-Image Generation via Chain of Thought Reasoning with Multimodal Large Language Models
Title（参考訳）: FairCoT:マルチモーダル大言語モデルによる思考の連鎖によるテキスト・画像生成の公平性向上
Authors: Zahraa Al Sahili, Ioannis Patras, Matthew Purver,
Abstract要約: 思考の連鎖(CoT)推論を通じて画像モデルにテキストの公平性を高める新しいフレームワークであるFairCoTを紹介する。また,FairCoTは画像品質や意味的忠実さを犠牲にすることなく,公平性と多様性を著しく向上させることを示した。
参考スコア（独自算出の注目度）: 14.632649933582648
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In the domain of text-to-image generative models, biases inherent in training datasets often propagate into generated content, posing significant ethical challenges, particularly in socially sensitive contexts. We introduce FairCoT, a novel framework that enhances fairness in text to image models through Chain of Thought (CoT) reasoning within multimodal generative large language models. FairCoT employs iterative CoT refinement to systematically mitigate biases, and dynamically adjusts textual prompts in real time, ensuring diverse and equitable representation in generated images. By integrating iterative reasoning processes, FairCoT addresses the limitations of zero shot CoT in sensitive scenarios, balancing creativity with ethical responsibility. Experimental evaluations across popular text-to-image systems including DALLE and various Stable Diffusion variants, demonstrate that FairCoT significantly enhances fairness and diversity without sacrificing image quality or semantic fidelity. By combining robust reasoning, lightweight deployment, and extensibility to multiple models, FairCoT represents a promising step toward more socially responsible and transparent AI driven content generation.
Abstract（参考訳）: テキストから画像への生成モデルの領域では、トレーニングデータセットに固有のバイアスは、しばしば生成されたコンテンツに伝播し、特に社会的に敏感な文脈において重要な倫理的課題を生じさせる。マルチモーダル生成型大規模言語モデル内でのChain of Thought(CoT)推論を通じて,画像モデルに対するテキストの公平性を高める新しいフレームワークであるFairCoTを紹介する。 FairCoTは、バイアスを系統的に緩和するために反復的なCoTリファインメントを採用し、テキストプロンプトをリアルタイムで動的に調整し、生成した画像の多様で公平な表現を保証する。反復的推論プロセスを統合することで、FairCoTは機密性のあるシナリオにおけるゼロショットCoTの限界に対処し、創造性と倫理的責任のバランスを取る。 DALLEや様々な安定拡散変種を含む一般的なテキスト・ツー・イメージシステムに対する実験的評価は、FairCoTが画像の品質やセマンティックな忠実さを犠牲にすることなく、公平性と多様性を著しく向上することを示した。堅牢な推論、軽量なデプロイメント、複数のモデルの拡張性を組み合わせることで、FairCoTはより社会的に責任を持ち、透過的なAI駆動コンテンツ生成に向けた有望なステップである。

関連論文リスト

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [31.31018600797305]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文参考訳（メタデータ） (2025-06-03T16:44:15Z)
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。 Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文参考訳（メタデータ） (2025-05-29T16:15:48Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文参考訳（メタデータ） (2025-03-17T17:58:30Z)
Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability [15.155556606996994]
Narrowing Information Bottleneck Theoryは、従来のボトルネックアプローチを再定義する新しいフレームワークである。提案手法は,画像の解釈可能性の平均9%,テキストの解釈可能性の平均58.83%を向上し,処理速度63.95%を高速化する。
論文参考訳（メタデータ） (2025-02-16T19:01:37Z)
Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文参考訳（メタデータ） (2025-02-02T15:43:13Z)
A Comprehensive Social Bias Audit of Contrastive Vision Language Models [14.632649933582648]
テキスト・ツー・イメージ・モデルにおける公平性を高める新しいフレームワークであるFairCoTを紹介する。また,FairCoTは画像品質や意味的忠実さを犠牲にすることなく,公平性と多様性を著しく向上させることを示した。
論文参考訳（メタデータ） (2025-01-22T21:08:30Z)
Hierarchical Vision-Language Alignment for Text-to-Image Generation via Diffusion Models [0.7366405857677226]
Vision-Language Aligned Diffusion(VLAD)モデルは、デュアルストリーム戦略を通じて課題に対処する生成フレームワークである。 VLADはテキストプロンプトをグローバルおよびローカルな表現に分解し、視覚的特徴と正確に一致させる。高忠実度画像を生成するための階層的ガイダンスを備えた多段階拡散プロセスが組み込まれている。
論文参考訳（メタデータ） (2025-01-01T18:27:13Z)
Bias Begets Bias: The Impact of Biased Embeddings on Diffusion Models [0.0]
テキスト・トゥ・イメージ(TTI)システムは、社会的偏見に対する精査が増加している。組込み空間をTTIモデルのバイアス源として検討する。 CLIPのような偏りのあるマルチモーダル埋め込みは、表現バランスの取れたTTIモデルに対して低いアライメントスコアをもたらす。
論文参考訳（メタデータ） (2024-09-15T01:09:55Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
Enhancing Fairness in Neural Networks Using FairVIC [0.0]
自動意思決定システム、特にディープラーニングモデルにおけるバイアスの緩和は、公平性を達成する上で重要な課題である。 FairVICは、トレーニング段階で固有のバイアスに対処することによって、ニューラルネットワークの公平性を高めるために設計された革新的なアプローチである。我々は、モデルの精度を有害な程度に向上させることなく、テスト対象のすべての指標の公平性を大幅に改善する。
論文参考訳（メタデータ） (2024-04-28T10:10:21Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Fair Text-to-Image Diffusion via Fair Mapping [32.02815667307623]
本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
論文参考訳（メタデータ） (2023-11-29T15:02:01Z)
Steering Language Generation: Harnessing Contrastive Expert Guidance and Negative Prompting for Coherent and Diverse Synthetic Data Generation [0.0]
大規模言語モデル(LLM)は、高品質で実用性の高い合成データを生成する大きな可能性を秘めている。本稿では,細調整された言語モデルと基本言語モデルのロジット分布の違いを強調する,対照的な専門家指導を紹介する。 STEER: Embedding Repositioningによるセマンティックテキストの強化。
論文参考訳（メタデータ） (2023-08-15T08:49:14Z)
TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。 TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文参考訳（メタデータ） (2023-07-24T02:50:44Z)
Multi-modal Latent Diffusion [8.316365279740188]
多モード変分オートエンコーダ(Multi-modal Variational Autoencoder)は、様々なモダリティの合同表現を学習することを目的とした、一般的なモデルのファミリーである。既存のアプローチはコヒーレンス品質のトレードオフに悩まされており、優れた世代品質のモデルはモダリティ間で生成コヒーレンスを欠いている。独立に訓練された一様・一様・決定論的オートエンコーダの集合を用いる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-07T14:16:44Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文参考訳（メタデータ） (2023-05-30T04:09:47Z)
DualFair: Fair Representation Learning at Both Group and Individual Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文参考訳（メタデータ） (2023-03-15T07:13:54Z)
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文参考訳（メタデータ） (2023-01-31T18:10:38Z)
Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。 CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文参考訳（メタデータ） (2022-07-21T22:19:17Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。