論文の概要: Race, Ethnicity and Their Implication on Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.12868v1
- Date: Mon, 19 Jan 2026 09:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.832004
- Title: Race, Ethnicity and Their Implication on Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおける人種・民族性とそのバイアスへの影響
- Authors: Shiyue Hu, Ruizhe Li, Yanjun Gao,
- Abstract要約: 大型言語モデル(LLM)における人種と民族の表現と運用について検討する。
人口統計情報は, 内部単位に分散し, モデル間差が大きいことが判明した。
このようなニューロンを阻害する介入はバイアスを減少させるが、かなりの影響を残している。
- 参考スコア(独自算出の注目度): 9.202525724606188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly operate in high-stakes settings including healthcare and medicine, where demographic attributes such as race and ethnicity may be explicitly stated or implicitly inferred from text. However, existing studies primarily document outcome-level disparities, offering limited insight into internal mechanisms underlying these effects. We present a mechanistic study of how race and ethnicity are represented and operationalized within LLMs. Using two publicly available datasets spanning toxicity-related generation and clinical narrative understanding tasks, we analyze three open-source models with a reproducible interpretability pipeline combining probing, neuron-level attribution, and targeted intervention. We find that demographic information is distributed across internal units with substantial cross-model variation. Although some units encode sensitive or stereotype-related associations from pretraining, identical demographic cues can induce qualitatively different behaviors. Interventions suppressing such neurons reduce bias but leave substantial residual effects, suggesting behavioral rather than representational change and motivating more systematic mitigation.
- Abstract(参考訳): 大規模言語モデル (LLM) は、人種や民族などの人口特性を明示的に記述したり、テキストから暗黙的に推測したりして、医療や医療など、高い視点で活動する傾向にある。
しかし、既存の研究は主に結果レベルの格差を文書化しており、これらの影響の根底にある内部メカニズムについて限られた洞察を与えている。
本稿では、人種と民族がLLM内でどのように表現され、運用されるかに関する機械論的研究について述べる。
毒性関連生成タスクと臨床物語理解タスクにまたがる2つの公開データセットを用いて、プロブリング、ニューロンレベルの属性、ターゲット介入を組み合わせた再現可能な解釈可能性パイプラインを備えた3つのオープンソースモデルを解析した。
人口統計情報は, 内部単位に分散し, モデル間差が大きいことが判明した。
いくつかのユニットは、事前訓練からセンシティブまたはステレオタイプ関連の関連をエンコードするが、同一の人口統計学的手がかりは質的に異なる行動を引き起こす可能性がある。
このようなニューロンを阻害する介入はバイアスを減少させるが、かなりの残効が残っており、表現の変化よりも行動が示唆され、より系統的な緩和を動機付けている。
関連論文リスト
- Mitigation of Gender and Ethnicity Bias in AI-Generated Stories through Model Explanations [2.86989372262348]
言語モデルは、特に性別と民族の表現において、そのアウトプットを通じて社会的偏見を伝播させることが示されている。
本稿では,AIが生み出す職業物語におけるジェンダーと民族のバイアスについて検討する。
提案した緩和戦略であるバイアス分析と説明による緩和(BAME)は,2%から20%の範囲の人口表現の改善を明らかにする。
論文 参考訳(メタデータ) (2025-09-03T00:25:25Z) - How Quantization Shapes Bias in Large Language Models [61.40435736418359]
重みとアクティベーションの定量化戦略に焦点をあて、幅広いバイアスタイプにまたがる効果について検討する。
確率的および生成されたテキストベースのメトリクスを9つのベンチマークで使用し、アーキテクチャファミリや推論能力の異なるモデルを評価する。
論文 参考訳(メタデータ) (2025-08-25T14:48:26Z) - Small Changes, Large Consequences: Analyzing the Allocational Fairness of LLMs in Hiring Contexts [19.20592062296075]
大規模言語モデル(LLM)は、採用のような高度なアプリケーションにますますデプロイされている。
本研究は、実際の人事利用を反映した2つのタスクを通して、LLMベースの採用システムの割当公平性を検討する。
論文 参考訳(メタデータ) (2025-01-08T07:28:10Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Write It Like You See It: Detectable Differences in Clinical Notes By
Race Lead To Differential Model Recommendations [15.535251319178379]
機械学習モデルと人間専門家が利用できる暗黙の人種情報のレベルについて検討する。
また,本研究の結果から,被験者の自己申告した人種を,明示的な人種指標から取り除かれた場合でも,臨床記録から特定できることがわかった。
以上の結果から,これらのテストノートに基づいてトレーニングしたモデルが,臨床治療決定における既存のバイアスを持続させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-08T18:24:11Z) - Causal Mediation Analysis for Interpreting Neural NLP: The Case of
Gender Bias [45.956112337250275]
本稿では, 因果媒介分析の理論に基づく手法を提案し, モデルのどの部分が因果関係に関係しているかを解釈する。
本研究では,事前学習したトランスフォーマー言語モデルにおける性別バイアスの分析に本手法を適用した。
媒介分析の結果,性別バイアス効果は (i) ネットワークのごく一部に集中しており, (ii) 相乗的, 増幅的, あるいは抑圧的であり, (iii) 入力から直接的に, 仲介者を通して間接的に流れる効果に分解可能であることがわかった。
論文 参考訳(メタデータ) (2020-04-26T01:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。