論文の概要: A Scalable Entity-Based Framework for Auditing Bias in LLMs
- arxiv url: http://arxiv.org/abs/2601.12374v1
- Date: Sun, 18 Jan 2026 12:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.602293
- Title: A Scalable Entity-Based Framework for Auditing Bias in LLMs
- Title(参考訳): LLMにおけるバイアス監査のためのスケーラブルなエンティティベースフレームワーク
- Authors: Akram Elbouanani, Aboubacar Tuo, Adrian Popescu,
- Abstract要約: 本稿では,モデル動作における構造的差異を測定するために,名前付きエンティティをプローブとして用いたスケーラブルなバイアス監査フレームワークを提案する。
これまでで最大のバイアス監査を実施しており、複数のエンティティタイプ、タスク、言語、モデル、およびプロンプト戦略を含む、19億のデータポイントで構成されています。
- 参考スコア(独自算出の注目度): 3.3335717632645108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to bias evaluation in large language models (LLMs) trade ecological validity for statistical control, relying on artificial prompts that poorly reflect real-world use, or on naturalistic tasks that lack scale and rigor. We introduce a scalable bias-auditing framework using named entities as probes to measure structural disparities in model behavior. We show that synthetic data reliably reproduces bias patterns observed in natural text, enabling large-scale analysis. Using this approach, we conduct the largest bias audit to date, comprising 1.9 billion data points across multiple entity types, tasks, languages, models, and prompting strategies. Our results reveal systematic biases: models penalize right-wing politicians, favor left-wing politicians, prefer Western and wealthy nations over the Global South, favor Western companies, and penalize firms in the defense and pharmaceutical sectors. While instruction tuning reduces bias, increasing model scale amplifies it, and prompting in Chinese or Russian does not attenuate Western-aligned preferences. These results indicate that LLMs should undergo rigorous auditing before deployment in high-stakes applications.
- Abstract(参考訳): 大規模言語モデル (LLMs) におけるバイアス評価への既存のアプローチは、実世界の使用をあまり反映しない人工的なプロンプトや、スケールや厳密性に欠ける自然主義的なタスクに依存して、統計的制御のための生態学的妥当性を取引している。
本稿では,モデル動作における構造的差異を測定するために,名前付きエンティティをプローブとして用いたスケーラブルなバイアス監査フレームワークを提案する。
合成データは、自然文で観察されたバイアスパターンを確実に再現し、大規模解析を可能にすることを示す。
このアプローチを用いることで、複数のエンティティタイプ、タスク、言語、モデル、およびプロンプト戦略にまたがる19億のデータポイントを含む、これまでで最大のバイアス監査を行います。
モデルは右翼の政治家を罰し、左翼の政治家を尊重し、グローバル・サウスよりも欧米と富裕国を優先し、西洋企業を優先し、防衛・製薬分野の企業を罰する。
命令チューニングはバイアスを軽減するが、モデルスケールの増大はそれを増幅し、中国語やロシア語では西洋の好みを弱めることはない。
これらの結果から,LLM は高度アプリケーションに展開する前に厳格な監査を行う必要があることが示唆された。
関連論文リスト
- "As Eastern Powers, I will veto." : An Investigation of Nation-level Bias of Large Language Models in International Relations [7.585969077788284]
本稿では国際関係領域(IR)における大規模言語モデル(LLM)による国家レベルの偏見を体系的に検討する。
各国のLLMにおける国家レベルのバイアスを探索する3つの異なるテストからなるバイアス評価フレームワークを開発した。
本稿では,LLMとRetrieval-Augmented GenerationとReflexion-based self-reflex(自己回帰)技術を組み合わせることで,現実的推論を改善する脱バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-12T08:42:54Z) - Your AI, Not Your View: The Bias of LLMs in Investment Analysis [62.388554963415906]
金融において、Large Language Models (LLMs) は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違から生じる、頻繁な知識紛争に直面している。
これらの対立は、モデル固有のバイアスが制度的目的と誤認される現実世界の投資サービスにおいて特に問題となる。
本研究では,このような紛争シナリオにおける創発的行動を調べるための実験的枠組みを提案し,投資分析におけるバイアスの定量的分析を行う。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - Robustly Improving LLM Fairness in Realistic Settings via Interpretability [0.16843915833103415]
現実的な文脈の詳細が導入されたとき、アンチバイアスプロンプトは失敗する。
企業名や公的キャリアページからの文化記述などの現実的なコンテキストの追加,選択的な雇用制限は,人種的および性別的偏見を著しく引き起こすことが判明した。
我々の内部バイアス緩和は人種や性別に関連する方向を特定し、推論時にアフィンの概念を編集する。
論文 参考訳(メタデータ) (2025-06-12T17:34:38Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。