論文の概要: Multi-Group Proportional Representation for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2505.24023v1
- Date: Thu, 29 May 2025 21:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.676288
- Title: Multi-Group Proportional Representation for Text-to-Image Models
- Title(参考訳): テキスト・画像モデルのための多群比例表現
- Authors: Sangwon Jung, Alex Oesterling, Claudio Mayrink Verdun, Sajani Vithana, Taesup Moon, Flavio P. Calmon,
- Abstract要約: Text-to-image (T2I) 生成モデルは、テキスト記述から鮮明でリアルなイメージを作成することができる。
これらのモデルが普及するにつれて、多様な人口集団を代表し、ステレオタイプを広め、少数民族を擁護する能力に対する新たな懸念が浮き彫りになる。
本稿では,T2Iモデルが生成した画像における交叉群の表現を多群比例表現法を用いて測定する手法を提案する。
- 参考スコア(独自算出の注目度): 19.36512604668349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) generative models can create vivid, realistic images from textual descriptions. As these models proliferate, they expose new concerns about their ability to represent diverse demographic groups, propagate stereotypes, and efface minority populations. Despite growing attention to the "safe" and "responsible" design of artificial intelligence (AI), there is no established methodology to systematically measure and control representational harms in image generation. This paper introduces a novel framework to measure the representation of intersectional groups in images generated by T2I models by applying the Multi-Group Proportional Representation (MPR) metric. MPR evaluates the worst-case deviation of representation statistics across given population groups in images produced by a generative model, allowing for flexible and context-specific measurements based on user requirements. We also develop an algorithm to optimize T2I models for this metric. Through experiments, we demonstrate that MPR can effectively measure representation statistics across multiple intersectional groups and, when used as a training objective, can guide models toward a more balanced generation across demographic groups while maintaining generation quality.
- Abstract(参考訳): Text-to-image (T2I) 生成モデルは、テキスト記述から鮮明でリアルなイメージを作成することができる。
これらのモデルが普及するにつれて、多様な人口集団を表現し、ステレオタイプを広め、少数民族を表わす能力に対する新たな懸念が浮き彫りになる。
人工知能(AI)の「安全」で「責任」な設計に注目が集まる一方で、画像生成における表現的害を体系的に計測し、制御する手法は確立されていない。
本稿では,MPR(Multi-Group Proportional Representation)メトリクスを適用し,T2Iモデルにより生成された画像における交叉群の表現を計測する新しい枠組みを提案する。
MPRは、生成モデルによって生成された画像において、与えられた人口集団間での表現統計の最悪の偏りを評価し、ユーザ要求に基づいた柔軟でコンテキスト特異的な測定を可能にする。
また,この測度に対してT2Iモデルを最適化するアルゴリズムを開発した。
実験により,MPRは複数の交叉群にまたがる表現統計を効果的に測定でき,学習目的として使用すれば,世代品質を維持しつつ,階層群間でよりバランスのとれた世代に向けてモデルを導くことができることを示した。
関連論文リスト
- UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。
我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文 参考訳(メタデータ) (2025-03-16T21:11:25Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models [18.259733507395634]
VLEU(Visual Language Evaluation Understudy)と呼ばれる新しい指標を導入する。
VLEUは、視覚テキストの限界分布とモデルが生成した画像の条件分布との間のクルバック・リーバーの偏差を計算することにより、モデルの一般化可能性を定量化する。
本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を示す。
論文 参考訳(メタデータ) (2024-09-23T04:50:36Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - FairRAG: Fair Human Generation via Fair Retrieval Augmentation [27.069276012884398]
本稿では,Fair Retrieval Augmented Generation (FairRAG)について紹介する。FairRAGは,外部画像データベースから取得した参照画像に事前学習した生成モデルを条件付けし,人間の生成における公平性を改善するためのフレームワークである。
公平性を高めるために、FairRAGは単純なyet- Effective debiasing戦略を適用し、生成過程において多様な人口集団の画像を提供する。
論文 参考訳(メタデータ) (2024-03-29T03:56:19Z) - T-HITL Effectively Addresses Problematic Associations in Image
Generation and Maintains Overall Visual Quality [52.5529784801908]
我々は、人口集団と意味概念の間の問題的関連性の生成に焦点をあてる。
本稿では,問題のある関連の低減と視覚的品質の維持を両立させるため,T-HITL(two- Human-in-the-loop)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-27T00:29:33Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。