論文の概要: Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive Benchmark Study
- arxiv url: http://arxiv.org/abs/2510.04641v1
- Date: Mon, 06 Oct 2025 09:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.787929
- Title: Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive Benchmark Study
- Title(参考訳): 復刻型社会バイアス検出のためのLCMの評価 : 総合的ベンチマークによる検討
- Authors: Ayan Majumdar, Feihao Chen, Jinghui Li, Xiaozhen Wang,
- Abstract要約: 汎用AIモデルのトレーニングに使用される大規模なウェブスクレイプテキストコーパスは、しばしば有害な人口統計学的対象の社会的バイアスを含んでいる。
本稿では、人口統計学的対象の社会的偏見を検出するためのLCMの能力を評価するための、英語テキストを対象とした総合的な評価フレームワークを提案する。
次に,学習の促進,文脈内学習,微調整など,スケールとテクニックをまたいだモデルを用いて,体系的な評価を行う。
- 参考スコア(独自算出の注目度): 1.6682715542079583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale web-scraped text corpora used to train general-purpose AI models often contain harmful demographic-targeted social biases, creating a regulatory need for data auditing and developing scalable bias-detection methods. Although prior work has investigated biases in text datasets and related detection methods, these studies remain narrow in scope. They typically focus on a single content type (e.g., hate speech), cover limited demographic axes, overlook biases affecting multiple demographics simultaneously, and analyze limited techniques. Consequently, practitioners lack a holistic understanding of the strengths and limitations of recent large language models (LLMs) for automated bias detection. In this study, we present a comprehensive evaluation framework aimed at English texts to assess the ability of LLMs in detecting demographic-targeted social biases. To align with regulatory requirements, we frame bias detection as a multi-label task using a demographic-focused taxonomy. We then conduct a systematic evaluation with models across scales and techniques, including prompting, in-context learning, and fine-tuning. Using twelve datasets spanning diverse content types and demographics, our study demonstrates the promise of fine-tuned smaller models for scalable detection. However, our analyses also expose persistent gaps across demographic axes and multi-demographic targeted biases, underscoring the need for more effective and scalable auditing frameworks.
- Abstract(参考訳): 汎用AIモデルのトレーニングに使用される大規模なWebスクレイプテキストコーパスは、しばしば有害な人口統計学的対象の社会的バイアスを含んでおり、データ監査とスケーラブルなバイアス検出方法の開発に対する規制の必要性を生み出している。
先行研究はテキストデータセットと関連する検出方法のバイアスを調査してきたが、これらの研究は範囲が狭いままである。
彼らは通常、単一のコンテンツタイプ(例えばヘイトスピーチ)に焦点を当て、限られた人口動態をカバーし、複数の人口動態に影響を与えるバイアスを見落とし、限られたテクニックを分析する。
その結果、実践者は、自動バイアス検出のための最近の大規模言語モデル(LLM)の長所と短所の全体的理解を欠いている。
本研究では、人口統計学的対象の社会的偏見を検出するためのLCMの能力を評価するために、英文を対象とした総合的な評価フレームワークを提案する。
規制要件と整合するために、人口統計に焦点を当てた分類法を用いて、偏見検出を多ラベルタスクとする。
次に,学習の促進,文脈内学習,微調整など,スケールとテクニックをまたいだモデルを用いて,体系的な評価を行う。
多様なコンテンツタイプと人口層にまたがる12のデータセットを用いて、我々は、スケーラブルな検出のための微調整された小さなモデルの実現を実証した。
しかし、我々の分析では、人口統計軸とマルチデデノグラフィー対象バイアスの間に永続的なギャップがあることも示しており、より効果的でスケーラブルな監査フレームワークの必要性を強調している。
関連論文リスト
- Fine-Grained Bias Detection in LLM: Enhancing detection mechanisms for nuanced biases [0.0]
本研究では,Large Language Models (LLMs) におけるニュアンスバイアス検出フレームワークを提案する。
このアプローチは、コンテキスト分析、注意機構による解釈可能性、および反ファクトデータ拡張を統合して、隠れたバイアスをキャプチャする。
その結果,従来の方法に比べて微妙な偏見の検出精度が向上した。
論文 参考訳(メタデータ) (2025-03-08T04:43:01Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。