論文の概要: Textual Entailment and Token Probability as Bias Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2510.07662v1
- Date: Thu, 09 Oct 2025 01:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.803521
- Title: Textual Entailment and Token Probability as Bias Evaluation Metrics
- Title(参考訳): バイアス評価指標としてのテクスチュアルエンターメントとトークン確率
- Authors: Virginia K. Felkner, Allison Lim, Jonathan May,
- Abstract要約: 我々は、より現実的な代替バイアス指標として自然言語推論(NLI)をテストする。
NLIのメトリクスは、"バイアスのかかる"ケースを検出する傾向にあることが分かりました。
トークン確率も自然言語推論も、すべての場合において「良い」バイアス計量ではないと結論づける。
- 参考スコア(独自算出の注目度): 27.54174592324523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measurement of social bias in language models is typically by token probability (TP) metrics, which are broadly applicable but have been criticized for their distance from real-world langugage model use cases and harms. In this work, we test natural language inference (NLI) as a more realistic alternative bias metric. We show that, curiously, NLI and TP bias evaluation behave substantially differently, with very low correlation among different NLI metrics and between NLI and TP metrics. We find that NLI metrics are more likely to detect "underdebiased" cases. However, NLI metrics seem to be more brittle and sensitive to wording of counterstereotypical sentences than TP approaches. We conclude that neither token probability nor natural language inference is a "better" bias metric in all cases, and we recommend a combination of TP, NLI, and downstream bias evaluations to ensure comprehensive evaluation of language models. Content Warning: This paper contains examples of anti-LGBTQ+ stereotypes.
- Abstract(参考訳): 言語モデルにおける社会的バイアスの測定は、一般的にトークン確率(TP)メトリクスによって行われる。
本研究では、より現実的な代替バイアス指標として自然言語推論(NLI)をテストする。
興味深いことに、NLIとTPのバイアス評価は、異なるNLIのメトリクスとNLIとTPのメトリクスの間に非常に低い相関関係を持ち、大きく異なる挙動を示す。
NLIのメトリクスは、"バイアスのかかる"ケースを検出する傾向にあることが分かりました。
しかし,NLIの指標はTPアプローチよりも脆く,対ステレオタイプ文の単語化に敏感であると考えられる。
トークン確率と自然言語推定は,いずれの場合も"ベター"バイアス尺度ではなく,TP,NLI,下流バイアス評価の組み合わせを推奨し,言語モデルの包括的評価を確実にする。
コンテンツ警告: この論文はLGBTQ+のステレオタイプの例を含む。
関連論文リスト
- Analyzing Correlations Between Intrinsic and Extrinsic Bias Metrics of Static Word Embeddings With Their Measuring Biases Aligned [8.673018064714547]
本研究では,自然言語処理(NLP)システムがバイアス行動を示すかどうかを予測するために,静的単語埋め込みの固有バイアス指標の有用性について検討する。
単語埋め込みは、実際のベクトルを通して単語の意味を表現する基本的なNLP技術の1つであり、問題として、ステレオタイプのような社会的バイアスも学習する。
論文 参考訳(メタデータ) (2024-09-14T02:13:56Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Evaluating Metrics for Bias in Word Embeddings [44.14639209617701]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。