論文の概要: CALM : A Multi-task Benchmark for Comprehensive Assessment of Language
Model Bias
- arxiv url: http://arxiv.org/abs/2308.12539v2
- Date: Wed, 24 Jan 2024 01:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:27:55.328204
- Title: CALM : A Multi-task Benchmark for Comprehensive Assessment of Language
Model Bias
- Title(参考訳): CALM : 言語モデルバイアスの総合評価のためのマルチタスクベンチマーク
- Authors: Vipul Gupta, Pranav Narayanan Venkit, Hugo Lauren\c{c}on, Shomir
Wilson, Rebecca J. Passonneau
- Abstract要約: 言語モデル(CALM)の包括的評価は、普遍的に関連する2種類の社会デマログラフバイアス、性別、人種の頑健な測定である。
実験により,CALMのバイアススコアは,テンプレートの摂動に対する従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
- 参考スコア(独自算出の注目度): 8.031232439623627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models (LMs) become increasingly powerful and widely used, it is
important to quantify them for sociodemographic bias with potential for harm.
Prior measures of bias are sensitive to perturbations in the templates designed
to compare performance across social groups, due to factors such as low
diversity or limited number of templates. Also, most previous work considers
only one NLP task. We introduce Comprehensive Assessment of Language Models
(CALM) for robust measurement of two types of universally relevant
sociodemographic bias, gender and race. CALM integrates sixteen datasets for
question-answering, sentiment analysis and natural language inference. Examples
from each dataset are filtered to produce 224 templates with high diversity
(e.g., length, vocabulary). We assemble 50 highly frequent person names for
each of seven distinct demographic groups to generate 78,400 prompts covering
the three NLP tasks. Our empirical evaluation shows that CALM bias scores are
more robust and far less sensitive than previous bias measurements to
perturbations in the templates, such as synonym substitution, or to random
subset selection of templates. We apply CALM to 20 large language models, and
find that for 2 language model series, larger parameter models tend to be more
biased than smaller ones. The T0 series is the least biased model families, of
the 20 LLMs investigated here. The code is available at
https://github.com/vipulgupta1011/CALM.
- Abstract(参考訳): 言語モデル(lms)がますます強力で広く使われるようになり、社会デミックバイアスと害の可能性を定量化することが重要である。
偏見の以前の尺度は、低い多様性や限られたテンプレート数などの要因により、社会的グループ間でのパフォーマンスを比較するために設計されたテンプレートの摂動に敏感である。
また、これまでの作業では1つのNLPタスクしか考慮していなかった。
本稿では,言語モデルの包括的評価(CALM)を導入し,普遍的に関連する2種類の社会デマログラフバイアス,性別,人種を計測する。
CALMは質問回答、感情分析、自然言語推論のための16のデータセットを統合している。
各データセットの例をフィルタして、224のテンプレートを高い多様性(長さ、語彙など)で生成する。
3つのNLPタスクをカバーする78,400のプロンプトを生成するため、7つの異なる人口集団それぞれに50の非常に頻繁な人物名を組み立てた。
実験により,CALMのバイアススコアは,テンプレート内の摂動やテンプレートのランダムなサブセット選択に対して,従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
大規模言語モデル20に対してCALMを適用すると、2つの言語モデル系列に対して、より大きなパラメータモデルはより小さなモデルよりも偏りが強いことが分かる。
T0シリーズは、ここで研究された20のLLMのうち、最もバイアスの少ないモデルファミリーである。
コードはhttps://github.com/vipulgupta1011/calmで入手できる。
関連論文リスト
- Large GPT-like Models are Bad Babies: A Closer Look at the Relationship
between Linguistic Competence and Psycholinguistic Measures [25.210837736795565]
我々は、BabyLM事前学習コーパスの厳密なバージョンに基づいて、異なるサイズのGPTライクな言語モデルを訓練する。
これら3つの課題に対して,各課題におけるモデルの幅と深さの相違により,LMサイズと性能の正の相関が認められた。
このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-11-08T09:26:27Z) - Debiasing Algorithm through Model Adaptation [6.161975764126452]
因果解析を行い、問題のあるモデル成分を同定し、フィードフォワードの中間層が最もバイアスを伝達しやすいことを明らかにする。
解析結果に基づいて,これらの層を線形投影により乗算することでモデルを適応させる。
提案手法であるDAMAは,下流タスクにおけるモデルの性能を維持しながら,様々な指標によって測定されるバイアスを著しく低減する。
論文 参考訳(メタデータ) (2023-10-29T05:50:03Z) - Effective Proxy for Human Labeling: Ensemble Disagreement Scores in
Large Language Models for Industrial NLP [6.429005147017301]
アンサンブル不一致スコアは、ゼロショット、少数ショット、微調整の設定において、言語モデルに対する人間のラベル付けのプロキシとして機能することを示す。
様々な言語やドメインにわたる結果から、平均誤差(MAE)が0.4%、平均13.8%のモデル性能が銀ラベルよりも優れているという評価結果が得られた。
論文 参考訳(メタデータ) (2023-09-11T17:07:01Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Leveraging Label Variation in Large Language Models for Zero-Shot Text
Classification [26.806043982510023]
大規模言語モデル(LLM)は、注釈や教師あり訓練を伴わないテキスト分類に最適である。
4言語にわたる5つのタスク(年齢、性別、話題、感情予測、ヘイトスピーチ検出)において、5つの最先端LPMを「アノテーション」として評価した。
単一モデルは、タスク内のすべてのタスク、言語、あるいはすべてのラベルを横断するものではない。しかし、人間のアノテータ用に設計された集約技術は、どの個々のモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2023-07-24T17:49:31Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。