論文の概要: Mitigation of Gender and Ethnicity Bias in AI-Generated Stories through Model Explanations
- arxiv url: http://arxiv.org/abs/2509.04515v1
- Date: Wed, 03 Sep 2025 00:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.349811
- Title: Mitigation of Gender and Ethnicity Bias in AI-Generated Stories through Model Explanations
- Title(参考訳): モデル説明によるAI生成ストーリーにおけるジェンダーとエスニシティバイアスの緩和
- Authors: Martha O. Dimgba, Sharon Oba, Ameeta Agrawal, Philippe J. Giabbanelli,
- Abstract要約: 言語モデルは、特に性別と民族の表現において、そのアウトプットを通じて社会的偏見を伝播させることが示されている。
本稿では,AIが生み出す職業物語におけるジェンダーと民族のバイアスについて検討する。
提案した緩和戦略であるバイアス分析と説明による緩和(BAME)は,2%から20%の範囲の人口表現の改善を明らかにする。
- 参考スコア(独自算出の注目度): 2.86989372262348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have been shown to propagate social bias through their output, particularly in the representation of gender and ethnicity. This paper investigates gender and ethnicity biases in AI-generated occupational stories. Representation biases are measured before and after applying our proposed mitigation strategy, Bias Analysis and Mitigation through Explanation (BAME), revealing improvements in demographic representation ranging from 2% to 20%. BAME leverages model-generated explanations to inform targeted prompt engineering, effectively reducing biases without modifying model parameters. By analyzing stories generated across 25 occupational groups, three large language models (Claude 3.5 Sonnet, Llama 3.1 70B Instruct, and GPT-4 Turbo), and multiple demographic dimensions, we identify persistent patterns of overrepresentation and underrepresentation linked to training data stereotypes. Our findings demonstrate that guiding models with their own internal reasoning mechanisms can significantly enhance demographic parity, thereby contributing to the development of more transparent generative AI systems.
- Abstract(参考訳): 言語モデルは、特に性別と民族の表現において、そのアウトプットを通じて社会的偏見を伝播させることが示されている。
本稿では,AIが生み出す職業物語におけるジェンダーと民族のバイアスについて検討する。
表現バイアスは, 提案した緩和戦略, バイアス分析, 説明による緩和の前後で測定され, 2%から20%の人口表現の改善が示された。
BAMEはモデル生成の説明を活用して、ターゲットのプロンプトエンジニアリングに通知し、モデルパラメータを変更することなくバイアスを効果的に削減する。
25の職業集団,3つの大きな言語モデル(Claude 3.5 Sonnet, Llama 3.1 70B Instruct, GPT-4 Turbo)および複数の人口動態を解析することにより,訓練データステレオタイプに関連する過剰表現と疎表現の持続パターンを同定する。
本研究は, 自己内部推論機構を用いた誘導モデルにより, 人口密度が著しく向上し, より透明な生成型AIシステムの開発に寄与することが示唆された。
関連論文リスト
- Race, Ethnicity and Their Implication on Bias in Large Language Models [9.202525724606188]
大型言語モデル(LLM)における人種と民族の表現と運用について検討する。
人口統計情報は, 内部単位に分散し, モデル間差が大きいことが判明した。
このようなニューロンを阻害する介入はバイアスを減少させるが、かなりの影響を残している。
論文 参考訳(メタデータ) (2026-01-19T09:24:24Z) - Exploring Bias in over 100 Text-to-Image Generative Models [49.60774626839712]
本稿では,Hugging Faceのようなオープンプラットフォームによるモデルの利用率向上に着目し,テキストから画像への生成モデルにおけるバイアスの傾向について検討する。
我々は, (i) 分布バイアス, (ii) 生成幻覚, (iii) 生成ミスレートの3つの主要な次元にまたがるバイアスを評価する。
以上の結果から, 芸術的モデルとスタイル変換モデルに有意なバイアスが生じる一方で, より広範なトレーニング分布の恩恵を受ける基礎モデルでは, 徐々にバイアスが減っていることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T03:40:44Z) - Gender Encoding Patterns in Pretrained Language Model Representations [17.101242741559428]
プレトレーニング言語モデル(PLM)におけるジェンダーバイアスは、社会的および倫理的課題を生じさせる。
本研究では,ジェンダーバイアスがエンコーダベースのアーキテクチャでどのようにエンコードされているかを分析するための情報理論的アプローチを採用する。
論文 参考訳(メタデータ) (2025-03-09T19:17:46Z) - Biased Heritage: How Datasets Shape Models in Facial Expression Recognition [13.77824359359967]
画像に基づく表情認識システムにおいて,データセットから訓練されたモデルへのバイアス伝搬について検討する。
本稿では,複数の階層群を有する複数クラス問題に特化して設計された新しいバイアス指標を提案する。
その結果,FERデータセットの一般的な人口収支よりも,感情特異的な人口動態パターンの防止が優先されるべきであることが示唆された。
論文 参考訳(メタデータ) (2025-03-05T12:25:22Z) - The Factuality Tax of Diversity-Intervened Text-to-Image Generation: Benchmark and Fact-Augmented Intervention [61.80236015147771]
我々は多様性の介入とT2Iモデルにおける人口統計学的事実性とのトレードオフを定量化する。
DoFaiRの実験では、多様性指向の指示によって、性別や人種の異なる集団の数が増加することが明らかになった。
本研究では,歴史における世代ごとのジェンダーや人種構成について,言語化された事実情報を反映したFact-Augmented Intervention (FAI)を提案する。
論文 参考訳(メタデータ) (2024-06-29T09:09:42Z) - Less can be more: representational vs. stereotypical gender bias in facial expression recognition [3.9698529891342207]
機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。
本稿では、データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。
ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。
論文 参考訳(メタデータ) (2024-06-25T09:26:49Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。