論文の概要: Mitigation of Gender and Ethnicity Bias in AI-Generated Stories through Model Explanations
- arxiv url: http://arxiv.org/abs/2509.04515v1
- Date: Wed, 03 Sep 2025 00:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.349811
- Title: Mitigation of Gender and Ethnicity Bias in AI-Generated Stories through Model Explanations
- Title(参考訳): モデル説明によるAI生成ストーリーにおけるジェンダーとエスニシティバイアスの緩和
- Authors: Martha O. Dimgba, Sharon Oba, Ameeta Agrawal, Philippe J. Giabbanelli,
- Abstract要約: 言語モデルは、特に性別と民族の表現において、そのアウトプットを通じて社会的偏見を伝播させることが示されている。
本稿では,AIが生み出す職業物語におけるジェンダーと民族のバイアスについて検討する。
提案した緩和戦略であるバイアス分析と説明による緩和(BAME)は,2%から20%の範囲の人口表現の改善を明らかにする。
- 参考スコア(独自算出の注目度): 2.86989372262348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models have been shown to propagate social bias through their output, particularly in the representation of gender and ethnicity. This paper investigates gender and ethnicity biases in AI-generated occupational stories. Representation biases are measured before and after applying our proposed mitigation strategy, Bias Analysis and Mitigation through Explanation (BAME), revealing improvements in demographic representation ranging from 2% to 20%. BAME leverages model-generated explanations to inform targeted prompt engineering, effectively reducing biases without modifying model parameters. By analyzing stories generated across 25 occupational groups, three large language models (Claude 3.5 Sonnet, Llama 3.1 70B Instruct, and GPT-4 Turbo), and multiple demographic dimensions, we identify persistent patterns of overrepresentation and underrepresentation linked to training data stereotypes. Our findings demonstrate that guiding models with their own internal reasoning mechanisms can significantly enhance demographic parity, thereby contributing to the development of more transparent generative AI systems.
- Abstract(参考訳): 言語モデルは、特に性別と民族の表現において、そのアウトプットを通じて社会的偏見を伝播させることが示されている。
本稿では,AIが生み出す職業物語におけるジェンダーと民族のバイアスについて検討する。
表現バイアスは, 提案した緩和戦略, バイアス分析, 説明による緩和の前後で測定され, 2%から20%の人口表現の改善が示された。
BAMEはモデル生成の説明を活用して、ターゲットのプロンプトエンジニアリングに通知し、モデルパラメータを変更することなくバイアスを効果的に削減する。
25の職業集団,3つの大きな言語モデル(Claude 3.5 Sonnet, Llama 3.1 70B Instruct, GPT-4 Turbo)および複数の人口動態を解析することにより,訓練データステレオタイプに関連する過剰表現と疎表現の持続パターンを同定する。
本研究は, 自己内部推論機構を用いた誘導モデルにより, 人口密度が著しく向上し, より透明な生成型AIシステムの開発に寄与することが示唆された。
関連論文リスト
- Exploring Bias in over 100 Text-to-Image Generative Models [49.60774626839712]
本稿では,Hugging Faceのようなオープンプラットフォームによるモデルの利用率向上に着目し,テキストから画像への生成モデルにおけるバイアスの傾向について検討する。
我々は, (i) 分布バイアス, (ii) 生成幻覚, (iii) 生成ミスレートの3つの主要な次元にまたがるバイアスを評価する。
以上の結果から, 芸術的モデルとスタイル変換モデルに有意なバイアスが生じる一方で, より広範なトレーニング分布の恩恵を受ける基礎モデルでは, 徐々にバイアスが減っていることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T03:40:44Z) - Gender Encoding Patterns in Pretrained Language Model Representations [17.101242741559428]
プレトレーニング言語モデル(PLM)におけるジェンダーバイアスは、社会的および倫理的課題を生じさせる。
本研究では,ジェンダーバイアスがエンコーダベースのアーキテクチャでどのようにエンコードされているかを分析するための情報理論的アプローチを採用する。
論文 参考訳(メタデータ) (2025-03-09T19:17:46Z) - Biased Heritage: How Datasets Shape Models in Facial Expression Recognition [13.77824359359967]
画像に基づく表情認識システムにおいて,データセットから訓練されたモデルへのバイアス伝搬について検討する。
本稿では,複数の階層群を有する複数クラス問題に特化して設計された新しいバイアス指標を提案する。
その結果,FERデータセットの一般的な人口収支よりも,感情特異的な人口動態パターンの防止が優先されるべきであることが示唆された。
論文 参考訳(メタデータ) (2025-03-05T12:25:22Z) - Less can be more: representational vs. stereotypical gender bias in facial expression recognition [3.9698529891342207]
機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。
本稿では、データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。
ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。
論文 参考訳(メタデータ) (2024-06-25T09:26:49Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。