論文の概要: Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation
- arxiv url: http://arxiv.org/abs/2402.12649v1
- Date: Tue, 20 Feb 2024 01:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:37:44.572516
- Title: Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation
- Title(参考訳): 言語モデルのバイアス: トリックテストを超えて、失礼な評価へ
- Authors: Kristian Lum, Jacy Reese Anthis, Chirag Nagpal, Alexander D'Amour
- Abstract要約: 本研究では,非テクスチャ化された「トリックテスト」と,現実的利用と有形効果に根ざした評価の対応について検討する。
本稿では,現在文献に適合している3つの非文脈評価と,長文コンテンツ生成に適用された3つの類似のRUTED評価を比較した。
トリックテストとRUTEd評価の対応は見つからなかった。
- 参考スコア(独自算出の注目度): 55.66090768926881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bias benchmarks are a popular method for studying the negative impacts of
bias in LLMs, yet there has been little empirical investigation of whether
these benchmarks are actually indicative of how real world harm may manifest in
the real world. In this work, we study the correspondence between such
decontextualized "trick tests" and evaluations that are more grounded in
Realistic Use and Tangible {Effects (i.e. RUTEd evaluations). We explore this
correlation in the context of gender-occupation bias--a popular genre of bias
evaluation. We compare three de-contextualized evaluations adapted from the
current literature to three analogous RUTEd evaluations applied to long-form
content generation. We conduct each evaluation for seven instruction-tuned
LLMs. For the RUTEd evaluations, we conduct repeated trials of three text
generation tasks: children's bedtime stories, user personas, and English
language learning exercises. We found no correspondence between trick tests and
RUTEd evaluations. Specifically, selecting the least biased model based on the
de-contextualized results coincides with selecting the model with the best
performance on RUTEd evaluations only as often as random chance. We conclude
that evaluations that are not based in realistic use are likely insufficient to
mitigate and assess bias and real-world harms.
- Abstract(参考訳): バイアスベンチマークは、LLMにおけるバイアスの負の影響を研究するための一般的な方法であるが、これらのベンチマークが現実の世界における現実の害がどのように現れるかを示す実証的な調査はほとんど行われていない。
本研究は, 実感的使用と有形評価(RUTEd評価)においてより基礎となる「トリックテスト」と評価との対応性について検討する。
本稿では、この相関関係をジェンダー占有バイアスの文脈で考察する。
本研究では,現在の文献から適応した3つの非文脈的評価を,長文コンテンツ生成に適用した3つの類似のラット評価と比較した。
我々は7つの命令調整 LLM の評価を行う。
RUTEdの評価では,子どもの就寝時間,ユーザ・ペルソナ,英語学習演習という3つのテキスト生成作業を繰り返し試行する。
トリックテストとRUTEd評価の対応は見つからなかった。
特に、非文脈化結果に基づく最小バイアスモデルの選択は、ランダムな確率でのみ、ラスト評価において最高の性能を持つモデルを選択することと一致する。
現実的利用に基づかない評価は、バイアスや現実世界の危害を軽減・評価するには不十分である可能性が高いと結論づける。
関連論文リスト
- Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Different Bias Under Different Criteria: Assessing Bias in LLMs with a Fact-Based Approach [7.969162168078149]
大規模言語モデル(LLM)は、しばしば現実世界のバイアスを反映し、これらの効果を緩和する努力に繋がる。
事実に基づく基準と実世界統計を用いたバイアス評価のための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-11-26T11:32:43Z) - Assessing Bias in Metric Models for LLM Open-Ended Generation Bias Benchmarks [3.973239756262797]
本研究では,BOLDやSAGEDといったオープンソースのベンチマークにおいて,そのようなバイアスについて検討する。
結果は、より堅牢なバイアスメトリックモデルを要求する、人口統計記述子の不平等な扱いを明らかにしている。
論文 参考訳(メタデータ) (2024-10-14T20:08:40Z) - COBIAS: Contextual Reliability in Bias Assessment [14.594920595573038]
大規模言語モデル(LLM)は、トレーニング対象のWebデータからバイアスを受け取り、ステレオタイプや偏見を含むことが多い。
これらのバイアスを評価し緩和するための現在の手法はバイアスベンチマークデータセットに依存している。
本稿では,モデルが現れる可能性のあるさまざまなコンテキストを考慮し,モデルロバスト性を偏りのある文に評価するコンテキスト信頼性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T10:46:11Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - An Offline Metric for the Debiasedness of Click Models [52.25681483524383]
クリックモデルは、ユーザークリックから情報を抽出する一般的な方法である。
最近の研究は、コミュニティにおける現在の評価プラクティスが、良いパフォーマンスのクリックモデルが下流のタスクにうまく一般化することを保証できないことを示している。
クリックモデリングにおける偏りの概念を導入し,その測定基準を導出する。
論文 参考訳(メタデータ) (2023-04-19T10:59:34Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。