論文の概要: COBIAS: Contextual Reliability in Bias Assessment
- arxiv url: http://arxiv.org/abs/2402.14889v2
- Date: Mon, 17 Jun 2024 09:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:56:21.944653
- Title: COBIAS: Contextual Reliability in Bias Assessment
- Title(参考訳): COBIAS:バイアス評価におけるコンテキスト信頼性
- Authors: Priyanshul Govil, Hemang Jain, Vamshi Krishna Bonagiri, Aman Chadha, Ponnurangam Kumaraguru, Manas Gaur, Sanorita Dey,
- Abstract要約: 大規模な言語モデル(LLM)は、広範囲なウェブコーパスで訓練されており、人間のようなテキストを理解して生成することができる。
これらのバイアスは、様々なステレオタイプや偏見を含む、Webデータの多様性と、しばしば未修正の性質から生じる。
本稿では,それらが生じる可能性のある多様な状況を考慮して,入力の文脈を理解することを提案する。
- 参考スコア(独自算出の注目度): 14.594920595573038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are trained on extensive web corpora, which enable them to understand and generate human-like text. However, this training process also results in inherent biases within the models. These biases arise from web data's diverse and often uncurated nature, containing various stereotypes and prejudices. Previous works on debiasing models rely on benchmark datasets to measure their method's performance. However, these datasets suffer from several pitfalls due to the highly subjective understanding of bias, highlighting a critical need for contextual exploration. We propose understanding the context of inputs by considering the diverse situations in which they may arise. Our contribution is two-fold: (i) we augment 2,291 stereotyped statements from two existing bias-benchmark datasets with points for adding context; (ii) we develop the Context-Oriented Bias Indicator and Assessment Score (COBIAS) to assess a statement's contextual reliability in measuring bias. Our metric aligns with human judgment on contextual reliability of statements (Spearman's $\rho = 0.65, p = 3.4 * 10^{-60}$) and can be used to create reliable datasets, which would assist bias mitigation works.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、広範囲なウェブコーパスで訓練されており、人間のようなテキストを理解して生成することができる。
しかし、このトレーニングプロセスはモデルに固有のバイアスをもたらす。
これらのバイアスは、様々なステレオタイプや偏見を含む、Webデータの多様性と、しばしば未修正の性質から生じる。
デバイアスモデルに関するこれまでの作業は、メソッドのパフォーマンスを測定するためにベンチマークデータセットに依存していた。
しかし、これらのデータセットは、偏見の非常に主観的な理解のため、いくつかの落とし穴に悩まされ、文脈探索の重要な必要性が浮かび上がっている。
本稿では,それらが生じる可能性のある多様な状況を考慮して,入力の文脈を理解することを提案する。
私たちの貢献は2つあります。
(i)2つの既存のバイアスベンチマークデータセットから2,291個のステレオタイプステートメントを拡張し、コンテキストを追加するためのポイントを付与する。
(II) 文脈指向バイアス指標と評価スコア(COBIAS)を開発し, バイアス測定における文の文脈的信頼性を評価する。
我々の計量は、文の文脈的信頼性に関する人間の判断(Spearman's $\rho = 0.65, p = 3.4 * 10^{-60}$)と一致し、バイアス軽減作業を支援する信頼できるデータセットを作成するために使用できる。
関連論文リスト
- Assessing Bias in Metric Models for LLM Open-Ended Generation Bias Benchmarks [3.973239756262797]
本研究では,BOLDやSAGEDといったオープンソースのベンチマークにおいて,そのようなバイアスについて検討する。
結果は、より堅牢なバイアスメトリックモデルを要求する、人口統計記述子の不平等な扱いを明らかにしている。
論文 参考訳(メタデータ) (2024-10-14T20:08:40Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Towards Real World Debiasing: A Fine-grained Analysis On Spurious Correlation [17.080528126651977]
既存のベンチマークと実世界のデータセットのバイアス分布を再検討し、データセットバイアスを分析するためのきめ細かいフレームワークを提案する。
その結果,既存の手法では現実のバイアスに対処できないことがわかった。
本稿では,Debias in Destruction (DiD) という,既存のデバイアス法に容易に適用可能な,シンプルかつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-24T06:06:41Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Improving Evaluation of Debiasing in Image Classification [29.711865666774017]
本研究は,画像分類におけるデバイアス評価を行う際には,いくつかの課題を解決する必要があることを示唆する。
このような問題に基づいて,チューニング基準に対する評価基準であるAlign-Conflict(AC)スコアを提案する。
われわれの発見と教訓は、未来の研究者に偏見を刺激し、最先端のパフォーマンスをさらに押し上げ、公正な比較を行うことを信じている。
論文 参考訳(メタデータ) (2022-06-08T05:24:13Z) - How Gender Debiasing Affects Internal Model Representations, and Why It
Matters [26.993273464725995]
内因性バイアスは、標準のWEAT測定値よりもデバイアスの指標として優れていることを示す。
当社のフレームワークは,NLPモデルのバイアスを包括的に把握し,より情報のある方法でNLPシステムのデプロイに適用することができる。
論文 参考訳(メタデータ) (2022-04-14T08:54:15Z) - The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。
本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文 参考訳(メタデータ) (2022-03-28T09:28:13Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。