論文の概要: DebFilter: Eradicating Biases Stashed in Value
- arxiv url: http://arxiv.org/abs/2605.28167v1
- Date: Wed, 27 May 2026 08:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.908607
- Title: DebFilter: Eradicating Biases Stashed in Value
- Title(参考訳): DebFilter: 価値の高いバイアスの排除
- Authors: Seung Hyuk Lee, Songkuk Kim,
- Abstract要約: テキスト・ツー・イメージ・モデルにおける社会的・意味的バイアスを軽減するために,DebFilterを提案する。
我々は,クロスアテンション内の値成分を調整するバイアス補正戦略を適用した。
本手法は,生成した画像の社会的バイアスを効果的に再構成することを示した。
- 参考スコア(独自算出の注目度): 4.060731229044571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models, which are theoretically equivalent to score-based generative models, generate images through a multi-step denoising process guided by text embeddings extracted from pretrained vision-language models such as CLIP. However, these text embeddings inherently encode social and semantic biases -- such as those related to gender and age -- that are subsequently propagated and amplified through the guidance mechanism, along with the model's training on large-scale datasets that are imbalanced with respect to these bias-related concepts, often leading to skewed outputs in text-to-image generation. We propose DebFilter, a lightweight and training-free framework for mitigating such biases in text-to-image diffusion models. Observing that the model's error prediction at each denoising step is primarily influenced by cross-attention dynamics, we introduce a bias-correction strategy that adjusts the value components within cross-attention. Specifically, we apply a fixed offset to the slice of guidance embedding, effectively steering the semantic direction of cross-attention values toward unbiased representations. This adjustment reconfigures the score landscape to produce balanced outputs while maintaining alignment with the intended text semantics. Unlike prior approaches that rely on fine-tuning or retraining, DebFilter operates entirely at inference time, requiring no additional data or model updates. Our results demonstrate that this method effectively mitigates social biases in generated images, offering an efficient and scalable pathway toward fairer and more inclusive text-to-image generation.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは、理論上はスコアベース生成モデルと等価であり、CLIPのような事前学習された視覚言語モデルから抽出されたテキスト埋め込みによって導かれる多段階のデノナイズプロセスを通して画像を生成する。
しかしながら、これらのテキスト埋め込みは、本質的に社会的および意味的なバイアス(性別や年齢など)を符号化し、その後、ガイダンスメカニズムを通じて伝播および増幅し、モデルがこれらのバイアスに関する概念に関して不均衡な大規模なデータセットをトレーニングし、しばしばテキスト・ツー・イメージ生成において歪んだ出力をもたらす。
DebFilterはテキストから画像への拡散モデルにおいて,そのようなバイアスを緩和するための軽量でトレーニング不要なフレームワークである。
各段階でのモデルの誤差予測は、主にクロスアテンションダイナミクスの影響を受けており、クロスアテンション内の値成分を調整するバイアス補正戦略を導入する。
具体的には、固定オフセットをガイダンス埋め込みのスライスに適用し、非バイアス表現に対する横断的意図値の意味的な方向を効果的に操る。
この調整はスコアランドスケープを再構成し、意図したテキストセマンティクスとの整合を維持しながらバランスの取れた出力を生成する。
微調整や再トレーニングに依存する従来のアプローチとは異なり、DebFilterは推論時に完全に動作し、追加のデータやモデル更新を必要としない。
本手法は,画像生成における社会的バイアスを効果的に軽減し,より公平で包括的なテキスト・ツー・イメージ生成への効率よくスケーラブルな経路を提供することを示す。
関連論文リスト
- FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models [10.857020427374506]
FairImagenは、社会的偏見を緩和するための迅速な埋め込みで動作する、ポストホックな脱バイアスフレームワークである。
我々のフレームワークは、既存のポストホック手法より優れており、公平なテキスト・画像生成のためのシンプルでスケーラブルでモデルに依存しないソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-24T11:47:15Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Fair Text-to-Image Diffusion via Fair Mapping [32.02815667307623]
本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。
暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T15:02:01Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。