論文の概要: COBIAS: Contextual Reliability in Bias Assessment
- arxiv url: http://arxiv.org/abs/2402.14889v3
- Date: Tue, 17 Sep 2024 09:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 22:31:03.660730
- Title: COBIAS: Contextual Reliability in Bias Assessment
- Title(参考訳): COBIAS:バイアス評価におけるコンテキスト信頼性
- Authors: Priyanshul Govil, Hemang Jain, Vamshi Krishna Bonagiri, Aman Chadha, Ponnurangam Kumaraguru, Manas Gaur, Sanorita Dey,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニング対象のWebデータからバイアスを受け取り、ステレオタイプや偏見を含むことが多い。
これらのバイアスを評価し緩和するための現在の手法はバイアスベンチマークデータセットに依存している。
本稿では,モデルが現れる可能性のあるさまざまなコンテキストを考慮し,モデルロバスト性を偏りのある文に評価するコンテキスト信頼性フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.594920595573038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often inherit biases from the web data they are trained on, which contains stereotypes and prejudices. Current methods for evaluating and mitigating these biases rely on bias-benchmark datasets. These benchmarks measure bias by observing an LLM's behavior on biased statements. However, these statements lack contextual considerations of the situations they try to present. To address this, we introduce a contextual reliability framework, which evaluates model robustness to biased statements by considering the various contexts in which they may appear. We develop the Context-Oriented Bias Indicator and Assessment Score (COBIAS) to measure a biased statement's reliability in detecting bias based on the variance in model behavior across different contexts. To evaluate the metric, we augment 2,291 stereotyped statements from two existing benchmark datasets by adding contextual information. We show that COBIAS aligns with human judgment on the contextual reliability of biased statements (Spearman's $\rho = 0.65$, $p = 3.4 * 10^{-60}$) and can be used to create reliable datasets, which would assist bias mitigation works.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニング対象のWebデータからバイアスを受け取り、ステレオタイプや偏見を含むことが多い。
これらのバイアスを評価し緩和するための現在の手法はバイアスベンチマークデータセットに依存している。
これらのベンチマークは、偏りのある文のLCMの振る舞いを観察することでバイアスを測定する。
しかし、これらの声明は、彼らが提示しようとする状況について文脈的な考察を欠いている。
そこで本稿では,モデルが現れる可能性のあるさまざまなコンテキストを考慮したモデルロバスト性をバイアス付き文に評価する,コンテキスト信頼性フレームワークを提案する。
コンテキスト指向バイアス指標と評価スコア(COBIAS)を開発し、異なるコンテキスト間のモデル行動のばらつきに基づいてバイアスを検出する際のバイアス文の信頼性を測定する。
このメトリクスを評価するために,2つの既存のベンチマークデータセットから文脈情報を追加することで,2,291個のステレオタイプステートメントを増強した。
COBIASは、バイアス付き文の文脈的信頼性に関する人間の判断(Spearman's $\rho = 0.65$, $p = 3.4 * 10^{-60}$)と一致し、バイアス軽減作業を支援する信頼性のあるデータセットを作成するために使用できることを示す。
関連論文リスト
- ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - NBIAS: A Natural Language Processing Framework for Bias Identification
in Text [9.486702261615166]
テキストデータのバイアスは、データが使用されると歪んだ解釈や結果につながる可能性がある。
偏りのあるデータに基づいて訓練されたアルゴリズムは、あるグループに不公平に影響を及ぼす決定を下すかもしれない。
我々は,データ,コーパス構築,モデル開発,評価レイヤの4つの主要レイヤからなる包括的フレームワーク NBIAS を開発した。
論文 参考訳(メタデータ) (2023-08-03T10:48:30Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Measuring Fairness with Biased Rulers: A Survey on Quantifying Biases in
Pretrained Language Models [2.567384209291337]
自然言語処理資源における偏見パターンの認識の高まりは、偏見と公平さを定量化するために多くの指標を動機付けてきた」。
本稿では,事前訓練された言語モデルの公平度指標に関する既存の文献を調査し,互換性を実験的に評価する。
その結果、多くの指標は互換性がなく、(i)テンプレート、(ii)属性とターゲット種子、(iii)埋め込みの選択に強く依存していることがわかった。
論文 参考訳(メタデータ) (2021-12-14T15:04:56Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets [64.76453161039973]
REVISE(Revealing VIsual biaSEs)は、視覚的データセットの調査を支援するツールである。
1)オブジェクトベース,(2)個人ベース,(3)地理ベースという3つの次元に沿った潜在的なバイアスを呈示する。
論文 参考訳(メタデータ) (2020-04-16T23:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。