論文の概要: Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation
- arxiv url: http://arxiv.org/abs/2402.12649v2
- Date: Sun, 16 Feb 2025 18:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:04:08.523758
- Title: Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation
- Title(参考訳): 言語モデルにおけるバイアス: トリクテストを超えて、RUTED評価を目指す
- Authors: Kristian Lum, Jacy Reese Anthis, Kevin Robinson, Chirag Nagpal, Alexander D'Amour,
- Abstract要約: 大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。
実世界の3つの文脈から類似したRUTEd評価法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
- 参考スコア(独自算出の注目度): 49.3814117521631
- License:
- Abstract: Standard benchmarks of bias and fairness in large language models (LLMs) measure the association between social attributes implied in user prompts and short LLM responses. In the commonly studied domain of gender-occupation bias, we test whether these benchmarks are robust to lengthening the LLM responses as a measure of Realistic Use and Tangible Effects (i.e., RUTEd evaluations). From the current literature, we adapt three standard bias metrics (neutrality, skew, and stereotype), and we develop analogous RUTEd evaluations from three contexts of real-world use: children's bedtime stories, user personas, and English language learning exercises. We find that standard bias metrics have no significant correlation with the more realistic bias metrics. For example, selecting the least biased model based on the standard "trick tests" coincides with selecting the least biased model as measured in more realistic use no more than random chance. We suggest that there is not yet evidence to justify standard benchmarks as reliable proxies of real-world biases, and we encourage further development of context-specific RUTEd evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短いLLM応答の関係を測定する。
一般に研究されているジェンダー占有バイアスの領域において、これらのベンチマークが現実的使用と有形効果(RUTEd評価)の尺度としてLLM応答の延長に頑健かどうかを検証した。
現在の文献から,3つの標準バイアス指標(中立性,スキュー,ステレオタイプ)を適応させ,子どもの就寝時間物語,ユーザペルソナ,英語学習演習の3つの文脈から,RUTEDと類似した評価方法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
例えば、標準の「トリックテスト」に基づいて最小バイアスモデルを選択することは、より現実的な用途で測定された最小バイアスモデルを選択することと一致します。
我々は,標準ベンチマークを現実のバイアスの信頼性プロキシとして正当化する証拠がまだないことを示唆し,文脈固有のRUTEd評価のさらなる発展を奨励する。
関連論文リスト
- Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Different Bias Under Different Criteria: Assessing Bias in LLMs with a Fact-Based Approach [7.969162168078149]
大規模言語モデル(LLM)は、しばしば現実世界のバイアスを反映し、これらの効果を緩和する努力に繋がる。
事実に基づく基準と実世界統計を用いたバイアス評価のための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-11-26T11:32:43Z) - Assessing Bias in Metric Models for LLM Open-Ended Generation Bias Benchmarks [3.973239756262797]
本研究では,BOLDやSAGEDといったオープンソースのベンチマークにおいて,そのようなバイアスについて検討する。
結果は、より堅牢なバイアスメトリックモデルを要求する、人口統計記述子の不平等な扱いを明らかにしている。
論文 参考訳(メタデータ) (2024-10-14T20:08:40Z) - COBIAS: Contextual Reliability in Bias Assessment [14.594920595573038]
大規模言語モデル(LLM)は、トレーニング対象のWebデータからバイアスを受け取り、ステレオタイプや偏見を含むことが多い。
これらのバイアスを評価し緩和するための現在の手法はバイアスベンチマークデータセットに依存している。
本稿では,モデルが現れる可能性のあるさまざまなコンテキストを考慮し,モデルロバスト性を偏りのある文に評価するコンテキスト信頼性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T10:46:11Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - An Offline Metric for the Debiasedness of Click Models [52.25681483524383]
クリックモデルは、ユーザークリックから情報を抽出する一般的な方法である。
最近の研究は、コミュニティにおける現在の評価プラクティスが、良いパフォーマンスのクリックモデルが下流のタスクにうまく一般化することを保証できないことを示している。
クリックモデリングにおける偏りの概念を導入し,その測定基準を導出する。
論文 参考訳(メタデータ) (2023-04-19T10:59:34Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。