論文の概要: Quantifying Social Biases Using Templates is Unreliable
- arxiv url: http://arxiv.org/abs/2210.04337v1
- Date: Sun, 9 Oct 2022 20:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:48:54.945355
- Title: Quantifying Social Biases Using Templates is Unreliable
- Title(参考訳): テンプレートを使ったソーシャルバイアスの定量化は信頼できない
- Authors: Preethi Seshadri, Pouya Pezeshkpour, Sameer Singh
- Abstract要約: ベンチマークに使用するテンプレートの選択にバイアス測定が敏感かどうかを検討する。
バイアス値と結果の結論は4つのタスクのテンプレート修正によって大きく異なることがわかった。
- 参考スコア(独自算出の注目度): 41.56949396496272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there has been an increase in efforts to understand how large
language models (LLMs) propagate and amplify social biases. Several works have
utilized templates for fairness evaluation, which allow researchers to quantify
social biases in the absence of test sets with protected attribute labels.
While template evaluation can be a convenient and helpful diagnostic tool to
understand model deficiencies, it often uses a simplistic and limited set of
templates. In this paper, we study whether bias measurements are sensitive to
the choice of templates used for benchmarking. Specifically, we investigate the
instability of bias measurements by manually modifying templates proposed in
previous works in a semantically-preserving manner and measuring bias across
these modifications. We find that bias values and resulting conclusions vary
considerably across template modifications on four tasks, ranging from an 81%
reduction (NLI) to a 162% increase (MLM) in (task-specific) bias measurements.
Our results indicate that quantifying fairness in LLMs, as done in current
practice, can be brittle and needs to be approached with more care and caution.
- Abstract(参考訳): 近年、大規模言語モデル(llm)が社会バイアスをいかに広め、増幅するかを理解する取り組みが増えている。
これは、研究者が保護された属性ラベルを持つテストセットがない場合、社会的バイアスを定量化することを可能にする。
テンプレート評価はモデル欠陥を理解するのに便利で便利な診断ツールであるが、単純で限定的なテンプレートセットを使用することが多い。
本稿では,ベンチマークに使用するテンプレートの選択にバイアス測定が敏感かどうかを検討する。
具体的には,先行研究で提案されているテンプレートを,意味的に保存する手法で手作業で修正することで,バイアス測定の不安定性について検討する。
バイアス値と結果の結論は4つのタスクのテンプレート修正によって大きく異なり、81%の削減(nli)から162%の(タスク固有の)バイアス測定値(mlm)まで様々である。
以上の結果から, LLMの定量化は, 現状のように不安定であり, より注意と注意を要することが示唆された。
関連論文リスト
- OLMES: A Standard for Language Model Evaluations [64.85905119836818]
再現可能な言語モデル評価のための実用的でオープンな標準であるOLMESを提案する。
我々は,コミュニティが採用する評価実践において,様々な要因を特定し,検討する。
OLMESは、複数の質問の非自然な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Beyond Performance: Quantifying and Mitigating Label Bias in LLMs [8.77694178599322]
モデル予測におけるラベルバイアスを定量化するための様々なアプローチを評価する。
本研究により, 脱バイアス前後のモデルに有意なラベルバイアスが認められた。
数発のプロンプトに適したラベルバイアス校正法を提案する。
論文 参考訳(メタデータ) (2024-05-04T19:53:03Z) - Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements [10.687101698324897]
大規模な言語モデルは、いくつかの例から新しいタスクを解くための驚くべき能力を示している。
プロンプトテンプレート、あるいはインプット例をフォーマットしてプロンプトを取得する方法は、コンテキスト内学習の重要な側面であるが、見過ごされがちである。
テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。
論文 参考訳(メタデータ) (2024-01-12T18:58:26Z) - CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias [7.28980829208179]
言語モデル(CALM)の包括的評価は、普遍的に関連する2種類の社会デマログラフバイアス、性別、人種の頑健な測定である。
実験により,CALMのバイアススコアは,テンプレートの摂動に対する従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
論文 参考訳(メタデータ) (2023-08-24T03:53:55Z) - This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language
Models [12.214260053244871]
言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業の本体を分析します。
我々は、バイアステストが測定する目的を捉える属性の分類を作成するために、測定モデリングフレームワークを設計する。
我々の分析は、フィールドが測定できる可能性のあるバイアスタイプの範囲を照らし、まだ調査されていないタイプを明らかにします。
論文 参考訳(メタデータ) (2023-05-22T06:28:48Z) - ADEPT: A DEbiasing PrompT Framework [49.582497203415855]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。
意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。
本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:41:40Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。