論文の概要: Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models
- arxiv url: http://arxiv.org/abs/2506.10491v1
- Date: Thu, 12 Jun 2025 08:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.658183
- Title: Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models
- Title(参考訳): Surface Fairness, Deep Bias: 言語モデルにおけるバイアスの比較研究
- Authors: Aleksandra Sorokovikova, Pavel Chizhov, Iuliia Eremenko, Ivan P. Yamshchikov,
- Abstract要約: 大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
- 参考スコア(独自算出の注目度): 49.41113560646115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models are trained on large amounts of data. These data inevitably include controversial and stereotypical content, which contains all sorts of biases related to gender, origin, age, etc. As a result, the models express biased points of view or produce different results based on the assigned personality or the personality of the user. In this paper, we investigate various proxy measures of bias in large language models (LLMs). We find that evaluating models with pre-prompted personae on a multi-subject benchmark (MMLU) leads to negligible and mostly random differences in scores. However, if we reformulate the task and ask a model to grade the user's answer, this shows more significant signs of bias. Finally, if we ask the model for salary negotiation advice, we see pronounced bias in the answers. With the recent trend for LLM assistant memory and personalization, these problems open up from a different angle: modern LLM users do not need to pre-prompt the description of their persona since the model already knows their socio-demographics.
- Abstract(参考訳): 現代の言語モデルは大量のデータに基づいて訓練されている。
これらのデータには必然的に、性別、起源、年齢などに関連するあらゆるバイアスを含む、議論の余地のある、ステレオタイプなコンテンツが含まれている。
その結果、モデルがビューの偏りを表現したり、割り当てられたパーソナリティやユーザのパーソナリティに基づいて異なる結果を生成する。
本稿では,大規模言語モデル(LLM)におけるバイアスのプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの非無視的, 主にランダムな差が生じることがわかった。
しかし、タスクを再編成し、ユーザーの回答を格付けするようモデルに求めると、これはより顕著なバイアスの兆候を示す。
最後に、モデルに給与交渉のアドバイスを求めると、回答のバイアスが顕著になる。
近年のLLMアシスタントの記憶とパーソナライゼーションの傾向により、これらの問題は異なる角度から開かれている。
関連論文リスト
- How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Debiasing Algorithm through Model Adaptation [5.482673673984126]
因果解析を行い、問題のあるモデル成分を同定し、フィードフォワードの中間層が最も偏りを伝達しやすいことを明らかにする。
解析結果に基づいて,これらの層の重み行列に線形射影を適用することにより,モデルに介入する。
提案手法であるDAMAは,下流タスクにおけるモデルの性能を維持しながら,様々な指標によって測定されるバイアスを著しく低減する。
論文 参考訳(メタデータ) (2023-10-29T05:50:03Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - OpinionGPT: Modelling Explicit Biases in Instruction-Tuned LLMs [3.5342505775640247]
ユーザが質問し、調査したいすべてのバイアスを選択できるWebデモであるOpinionGPTを提示する。
デモでは、選択されたバイアスのそれぞれを表すテキストに微調整されたモデルを使用して、この質問に答える。
基礎となるモデルをトレーニングするために、11の異なるバイアス(政治的、地理的、性別、年齢)を特定し、各回答がこれらの階層の1人によって書かれた指導学習コーパスを導出した。
論文 参考訳(メタデータ) (2023-09-07T17:41:01Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。