論文の概要: Obscured but Not Erased: Evaluating Nationality Bias in LLMs via Name-Based Bias Benchmarks
- arxiv url: http://arxiv.org/abs/2507.16989v1
- Date: Tue, 22 Jul 2025 19:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.75467
- Title: Obscured but Not Erased: Evaluating Nationality Bias in LLMs via Name-Based Bias Benchmarks
- Title(参考訳): LLMにおける国籍バイアスの評価 - Name-based Bias ベンチマークによる検討
- Authors: Giulio Pelosio, Devesh Batra, Noémie Bovey, Robert Hankache, Cristovao Iglesias, Greig Cowan, Raad Khraishi,
- Abstract要約: 大きな言語モデル(LLM)は、明示的な人口統計マーカーが存在しない場合でも、特定の国籍に対する潜在バイアスを示す。
文化的に表象的な名前で明示的な国籍ラベルを置換することの影響を調査するために,新しい名称ベースのベンチマーク手法を導入する。
私たちの実験では、小さなモデルの方が精度が低く、大きなモデルに比べてバイアスが大きいことが示されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can exhibit latent biases towards specific nationalities even when explicit demographic markers are not present. In this work, we introduce a novel name-based benchmarking approach derived from the Bias Benchmark for QA (BBQ) dataset to investigate the impact of substituting explicit nationality labels with culturally indicative names, a scenario more reflective of real-world LLM applications. Our novel approach examines how this substitution affects both bias magnitude and accuracy across a spectrum of LLMs from industry leaders such as OpenAI, Google, and Anthropic. Our experiments show that small models are less accurate and exhibit more bias compared to their larger counterparts. For instance, on our name-based dataset and in the ambiguous context (where the correct choice is not revealed), Claude Haiku exhibited the worst stereotypical bias scores of 9%, compared to only 3.5% for its larger counterpart, Claude Sonnet, where the latter also outperformed it by 117.7% in accuracy. Additionally, we find that small models retain a larger portion of existing errors in these ambiguous contexts. For example, after substituting names for explicit nationality references, GPT-4o retains 68% of the error rate versus 76% for GPT-4o-mini, with similar findings for other model providers, in the ambiguous context. Our research highlights the stubborn resilience of biases in LLMs, underscoring their profound implications for the development and deployment of AI systems in diverse, global contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、明示的な人口統計マーカーが存在しない場合でも、特定の国籍に対する潜在バイアスを示す。
本研究では,Bias Benchmark for QA(Bias Benchmark for QA)データセットをベースとした新しい名称ベースのベンチマーク手法を提案する。
我々の新しいアプローチは,OpenAI, Google, Anthropicといった業界リーダーのLLMのスペクトルにおけるバイアスの大きさと精度にどのように影響するかを検討する。
私たちの実験では、小さなモデルの方が精度が低く、大きなモデルに比べてバイアスが大きいことが示されています。
例えば、我々の名前に基づくデータセットと曖昧な文脈(正しい選択が明らかでない)では、クロード・ハイクは9%の最悪のステレオタイプバイアススコアを示し、クロード・ソネットはわずか3.5%で、クロード・ソネットは117.7%の精度でそれを上回った。
さらに、これらのあいまいな文脈において、小さなモデルが既存のエラーの大部分を保持していることがわかりました。
例えば、明示的な国籍基準の名前を置換した後、GPT-4oはエラー率の68%をGPT-4o-miniの76%に対して保持し、他のモデル提供者も同様の発見を曖昧な文脈で行った。
我々の研究は、LLMにおける頑丈なバイアスのレジリエンスを強調し、多様でグローバルな文脈におけるAIシステムの開発と展開に対する、彼らの深い影響を説明している。
関連論文リスト
- McBE: A Multi-task Chinese Bias Evaluation Benchmark for Large Language Models [26.202296897643382]
我々は4,077のバイアス評価インスタンスを含むマルチタスク中国語バイアス評価ベンチマーク(McBE)を提案する。
このデータセットは、広範なカテゴリカバレッジ、コンテンツの多様性、包括性の測定を提供する。
結果の詳細な分析を行い、大規模言語モデル(LLM)のバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-02T19:04:56Z) - Robustly Improving LLM Fairness in Realistic Settings via Interpretability [0.16843915833103415]
現実的な文脈の詳細が導入されたとき、アンチバイアスプロンプトは失敗する。
企業名や公的キャリアページからの文化記述などの現実的なコンテキストの追加,選択的な雇用制限は,人種的および性別的偏見を著しく引き起こすことが判明した。
我々の内部バイアス緩和は人種や性別に関連する方向を特定し、推論時にアフィンの概念を編集する。
論文 参考訳(メタデータ) (2025-06-12T17:34:38Z) - Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models [52.00270888041742]
我々は、中立なイベント記述と異なる国からの視点を対比した新しいデータセットを導入する。
以上の結果から,特定の民族的物語のモデルが好まれる,重要な地政学的偏見がみられた。
単純なデバイアスのプロンプトはこれらのバイアスを減らすのに限られた効果があった。
論文 参考訳(メタデータ) (2025-06-07T10:45:17Z) - LIBRA: Measuring Bias of Large Language Model from a Local Context [9.612845616659776]
大規模言語モデル(LLM)は、かなり高度な自然言語処理アプリケーションを持っている。
しかし、彼らの普及した利用は、特定の社会集団の実用性や害を減少させる固有のバイアスに関する懸念を提起する。
本研究は,これらの制約を,バイアス測定のためのローカル統合バイアス認識評価フレームワーク(LIBRA)を用いて解決する。
論文 参考訳(メタデータ) (2025-02-02T04:24:57Z) - Revealing Hidden Bias in AI: Lessons from Large Language Models [0.0]
本研究では,Claude 3.5 Sonnet, GPT-4o, Gemini 1.5, Llama 3.1 405B による面接レポートのバイアスについて検討した。
LLMによる匿名化によるバイアス低減効果について検討した。
論文 参考訳(メタデータ) (2024-10-22T11:58:54Z) - Bias Similarity Across Large Language Models [32.0365189539138]
大規模言語モデルにおけるバイアスは、これらのシステムがハイテイクなアプリケーションにますますデプロイされているため、依然として重要な関心事である。
機能的類似性としてバイアス類似性を評価し、4つのバイアス次元にまたがる100万以上の構造化プロンプト上で24 LLMを評価した。
フェアネスは、モデルのサイズ、アーキテクチャ、チューニングチューニング、オープンネスによって強く決定されていないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T19:21:14Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - What's in a Name? Auditing Large Language Models for Race and Gender Bias [45.1187517058961]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。