論文の概要: Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation
- arxiv url: http://arxiv.org/abs/2402.12649v2
- Date: Sun, 16 Feb 2025 18:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:04:08.523758
- Title: Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation
- Title(参考訳): 言語モデルにおけるバイアス: トリクテストを超えて、RUTED評価を目指す
- Authors: Kristian Lum, Jacy Reese Anthis, Kevin Robinson, Chirag Nagpal, Alexander D'Amour,
- Abstract要約: 大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。
実世界の3つの文脈から類似したRUTEd評価法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
- 参考スコア(独自算出の注目度): 49.3814117521631
- License:
- Abstract: Standard benchmarks of bias and fairness in large language models (LLMs) measure the association between social attributes implied in user prompts and short LLM responses. In the commonly studied domain of gender-occupation bias, we test whether these benchmarks are robust to lengthening the LLM responses as a measure of Realistic Use and Tangible Effects (i.e., RUTEd evaluations). From the current literature, we adapt three standard bias metrics (neutrality, skew, and stereotype), and we develop analogous RUTEd evaluations from three contexts of real-world use: children's bedtime stories, user personas, and English language learning exercises. We find that standard bias metrics have no significant correlation with the more realistic bias metrics. For example, selecting the least biased model based on the standard "trick tests" coincides with selecting the least biased model as measured in more realistic use no more than random chance. We suggest that there is not yet evidence to justify standard benchmarks as reliable proxies of real-world biases, and we encourage further development of context-specific RUTEd evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短いLLM応答の関係を測定する。
一般に研究されているジェンダー占有バイアスの領域において、これらのベンチマークが現実的使用と有形効果(RUTEd評価)の尺度としてLLM応答の延長に頑健かどうかを検証した。
現在の文献から,3つの標準バイアス指標(中立性,スキュー,ステレオタイプ)を適応させ,子どもの就寝時間物語,ユーザペルソナ,英語学習演習の3つの文脈から,RUTEDと類似した評価方法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
例えば、標準の「トリックテスト」に基づいて最小バイアスモデルを選択することは、より現実的な用途で測定された最小バイアスモデルを選択することと一致します。
我々は,標準ベンチマークを現実のバイアスの信頼性プロキシとして正当化する証拠がまだないことを示唆し,文脈固有のRUTEd評価のさらなる発展を奨励する。
関連論文リスト
- CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Towards Real World Debiasing: A Fine-grained Analysis On Spurious Correlation [17.080528126651977]
既存のベンチマークと実世界のデータセットのバイアス分布を再検討し、データセットバイアスを分析するためのきめ細かいフレームワークを提案する。
その結果,既存の手法では現実のバイアスに対処できないことがわかった。
本稿では,Debias in Destruction (DiD) という,既存のデバイアス法に容易に適用可能な,シンプルかつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-24T06:06:41Z) - Likelihood-based Mitigation of Evaluation Bias in Large Language Models [37.07596663793111]
大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。
LLMが評価に使用される場合、確率バイアスが存在する可能性がある。
論文 参考訳(メタデータ) (2024-02-25T04:52:02Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。