論文の概要: Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context
- arxiv url: http://arxiv.org/abs/2603.07792v1
- Date: Sun, 08 Mar 2026 20:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.218277
- Title: Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context
- Title(参考訳): 大規模言語モデルにおける社会的バイアスの2次元評価 : ネパールの文化的文脈から
- Authors: Ashish Pandey, Tek Raj Chhetri,
- Abstract要約: 大規模言語モデル(LLM)は、グローバルなデジタルエコシステムにますます影響を及ぼすが、社会的・文化的バイアスを持続させる可能性については、未表現の文脈では理解されていないままである。
GPT-4o-mini, Claude-3-Sonnet, Claude-4-Sonnet, Gemini-2.0-Flash, Gemini-2.0-Lite, Llama-3-70B, Mistral-Nemoの7つの最先端LCMにおける表現バイアスの系統的解析を行った。
- 参考スコア(独自算出の注目度): 3.5764166657860934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly influence global digital ecosystems, yet their potential to perpetuate social and cultural biases remains poorly understood in underrepresented contexts. This study presents a systematic analysis of representational biases in seven state-of-the-art LLMs: GPT-4o-mini, Claude-3-Sonnet, Claude-4-Sonnet, Gemini-2.0-Flash, Gemini-2.0-Lite, Llama-3-70B, and Mistral-Nemo in the Nepali cultural context. Using Croissant-compliant dataset of 2400+ stereotypical and anti-stereotypical sentence pairs on gender roles across social domains, we implement an evaluation framework, Dual-Metric Bias Assessment (DMBA), combining two metrics: (1) agreement with biased statements and (2) stereotypical completion tendencies. Results show models exhibit measurable explicit agreement bias, with mean bias agreement ranging from 0.36 to 0.43 across decoding configurations, and an implicit completion bias rate of 0.740-0.755. Importantly, implicit completion bias follows a non-linear, U-shaped relationship with temperature, peaking at moderate stochasticity (T=0.3) and declining slightly at higher temperatures. Correlation analysis under different decoding settings revealed that explicit agreement strongly aligns with stereotypical sentence agreement but is a weak and often negative predictor of implicit completion bias, indicating generative bias is poorly captured by agreement metrics. Sensitivity analysis shows increasing top-p amplifies explicit bias, while implicit generative bias remains largely stable. Domain-level analysis shows implicit bias is strongest for race and sociocultural stereotypes, while explicit agreement bias is similar across gender and sociocultural categories, with race showing the lowest explicit agreement. These findings highlight the need for culturally grounded datasets and debiasing strategies for LLMs in underrepresented societies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、グローバルなデジタルエコシステムにますます影響を及ぼすが、社会的・文化的バイアスを持続させる可能性については、未表現の文脈では理解されていないままである。
GPT-4o-mini, Claude-3-Sonnet, Claude-4-Sonnet, Gemini-2.0-Flash, Gemini-2.0-Lite, Llama-3-70B, Mistral-Nemoの7つの最先端LCMにおける表現バイアスの系統的解析を行った。
社会的領域にまたがるジェンダーロールに対する2400以上のステレオタイプおよび反ステレオタイプ文ペアのクロワサント対応データセットを用いて、評価枠組みであるDMBA(Dual-Metric Bias Assessment)を実装し、(1)バイアス付きステートメントとの一致と(2)ステレオタイプ補完傾向の2つの指標を組み合わせた。
その結果、平均バイアスはデコード構成で0.36から0.43の範囲で、暗黙の完了バイアス率は0.740-0.755である。
重要なことに、暗黙の完成バイアスは、非直線的なU字型と温度の関係に従い、適度な確率性(T=0.3)でピークに達し、高温ではわずかに減少する。
異なる復号条件下での相関分析では、明示的合意はステレオタイプ的な文の一致と強く一致しているが、暗黙的な完了バイアスの弱い負の予測因子であり、生成的バイアスは合意の指標によって不十分であることが示された。
感度分析では、トップpの増加は明らかなバイアスを増幅するが、暗黙的な生成バイアスは概ね安定している。
ドメインレベルの分析では、人種や社会文化的ステレオタイプにおいて、暗黙の偏見が最強であり、一方、明示的な合意偏見は、性別や社会文化的カテゴリーにおいて類似しており、人種は最も低い明示的な合意を示す。
これらの知見は, 少人数社会におけるLLMの文化的基盤化とデバイアス化戦略の必要性を浮き彫りにしている。
関連論文リスト
- Textual Data Bias Detection and Mitigation -- An Extensible Pipeline with Experimental Evaluation [7.217310710037882]
欧州AI法は、データ内の保護されたグループに対するバイアスを特定し緩和することを要求する。
4つの成分からなる包括的データバイアス検出と緩和パイプラインを提案する。
テキストデータセットにおける表現バイアスと(明示的な)ステレオタイプを効果的に削減する。
この評価結果から, 偏差データに微調整したLCMでは, バイアスベンチマークの性能が常に向上していないことが明らかとなった。
論文 参考訳(メタデータ) (2025-12-11T15:18:59Z) - IndiCASA: A Dataset and Bias Evaluation Framework in LLMs Using Contrastive Embedding Similarity in the Indian Context [10.90604216960609]
大きな言語モデル(LLM)は、その印象的なコンテキスト理解と生成能力によって、重要なドメイン間で大きな牽引力を得ています。
類似度を埋め込むことにより,微粒なバイアスを捕捉するコントラスト学習を用いて学習したエンコーダに基づく評価フレームワークを提案する。
IndiBiasをベースとしたコンテキストアライメントされたステレオタイプとアンチステレオタイプ) は,5つの人口動態軸にまたがる2,575の人文から構成される。
論文 参考訳(メタデータ) (2025-10-03T06:03:26Z) - On Fairness of Unified Multimodal Large Language Model for Image Generation [19.122441856516215]
最新のU-MLLMをベンチマークした結果、ほとんどの場合、性別や人種バイアスなど、大きな人口統計バイアスが示されることがわかった。
我々の分析は、偏見は主に言語モデルに由来することを示している。
本稿では、人口分布と合成データとのバランスをとるために、新しいバランスの取れた選好モデルを提案する。
論文 参考訳(メタデータ) (2025-02-05T18:21:03Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。