論文の概要: How Deep Is Representational Bias in LLMs? The Cases of Caste and Religion
- arxiv url: http://arxiv.org/abs/2508.03712v1
- Date: Tue, 22 Jul 2025 17:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-10 09:30:49.339145
- Title: How Deep Is Representational Bias in LLMs? The Cases of Caste and Religion
- Title(参考訳): LLMにおける表現バイアスの深さ : 鋳物と宗教の事例
- Authors: Agrima Seth, Monojit Choudhary, Sunayana Sitaram, Kentaro Toyama, Aditya Vashistha, Kalika Bali,
- Abstract要約: 我々は、宗教と鋳造のための大きな言語モデルにおける表現バイアスの存在と「粘り強さ」を定量化する。
GPT-4の反応は、文化的に支配的な集団を、その統計的表現をはるかに超越している。
以上の結果から, LLMにおける表現バイアスは, 学習データにおける分布バイアスよりも, あらゆる品質に偏りがあることが示唆された。
- 参考スコア(独自算出の注目度): 25.340454708475754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representational bias in large language models (LLMs) has predominantly been measured through single-response interactions and has focused on Global North-centric identities like race and gender. We expand on that research by conducting a systematic audit of GPT-4 Turbo to reveal how deeply encoded representational biases are and how they extend to less-explored dimensions of identity. We prompt GPT-4 Turbo to generate over 7,200 stories about significant life events (such as weddings) in India, using prompts designed to encourage diversity to varying extents. Comparing the diversity of religious and caste representation in the outputs against the actual population distribution in India as recorded in census data, we quantify the presence and "stickiness" of representational bias in the LLM for religion and caste. We find that GPT-4 responses consistently overrepresent culturally dominant groups far beyond their statistical representation, despite prompts intended to encourage representational diversity. Our findings also suggest that representational bias in LLMs has a winner-take-all quality that is more biased than the likely distribution bias in their training data, and repeated prompt-based nudges have limited and inconsistent efficacy in dislodging these biases. These results suggest that diversifying training data alone may not be sufficient to correct LLM bias, highlighting the need for more fundamental changes in model development. Dataset and Codebook: https://github.com/agrimaseth/How-Deep-Is-Representational-Bias-in-LLMs
- Abstract(参考訳): 大規模言語モデル(LLM)における表現バイアスは、主に単一応答相互作用を通じて測定され、人種や性別のようなグローバルな北中心のアイデンティティに焦点を当てている。
我々は、GPT-4 Turboの体系的な監査を行い、表現バイアスがいかに深くエンコードされているか、そしてそれらがより探索の少ないアイデンティティの次元にどのように拡張されているかを明らかにすることで、その研究を拡大する。
GPT-4 Turboはインドで重要な生活イベント(結婚式など)を7,200件以上作り出すよう促す。
インドにおける実際の人口分布に対するアウトプットにおける宗教的・キャスト的表現の多様性を国勢調査データで比較し、LLMにおける宗教とキャストのための表現バイアスの存在と「粘り強さ」を定量化する。
GPT-4応答は,表現の多様性を促進するプロンプトにもかかわらず,文化的に支配的な集団を常に過剰に表現していることがわかった。
また, LLMにおける表現バイアスは, トレーニングデータにおける分布バイアスよりも, いずれの品質も高いことが示唆され, 繰り返しのプロンプトベースナッジは, それらのバイアスを除去する上で, 限定的かつ一貫性のない有効性を有している。
これらの結果から,学習データの多様化だけでは LLM バイアスを補正するには不十分である可能性が示唆され,モデル開発におけるより基本的な変化の必要性が強調された。
データセットとコードブック:https://github.com/agrimaseth/How-deep-Is-representational-Bias-in-LLMs
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - On Fairness of Unified Multimodal Large Language Model for Image Generation [19.122441856516215]
最新のU-MLLMをベンチマークした結果、ほとんどの場合、性別や人種バイアスなど、大きな人口統計バイアスが示されることがわかった。
我々の分析は、偏見は主に言語モデルに由来することを示している。
本稿では、人口分布と合成データとのバランスをとるために、新しいバランスの取れた選好モデルを提案する。
論文 参考訳(メタデータ) (2025-02-05T18:21:03Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - The Impact of Unstated Norms in Bias Analysis of Language Models [0.03495246564946556]
事実バイアス評価はバイアスの定量化に広く用いられている手法である。
テンプレートベースのプローブは非現実的なバイアス測定につながる可能性がある。
論文 参考訳(メタデータ) (2024-04-04T14:24:06Z) - What's in a Name? Auditing Large Language Models for Race and Gender Bias [45.1187517058961]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Indian-BhED: A Dataset for Measuring India-Centric Biases in Large Language Models [18.201326983938014]
大規模言語モデル(LLM)は社会的バイアスを符号化し、ユーザを表現上の害に晒す。
本研究は,LLMにおけるステレオタイプバイアスを,そのタイプデータセットであるIndian-BhEDを用いて,インド中心のフレームに従って定量化する。
テストされたLLMの大多数は、インドの文脈でステレオタイプを出力する確率が強いことが判明した。
論文 参考訳(メタデータ) (2023-09-15T17:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。