論文の概要: FairBelief - Assessing Harmful Beliefs in Language Models
- arxiv url: http://arxiv.org/abs/2402.17389v1
- Date: Tue, 27 Feb 2024 10:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:55:01.127067
- Title: FairBelief - Assessing Harmful Beliefs in Language Models
- Title(参考訳): FairBelief - 言語モデルにおける有害な信念の評価
- Authors: Mattia Setzu, Marta Marchiori Manerba, Pasquale Minervini, Debora
Nozza
- Abstract要約: 言語モデル(LM)は、マイノリティを損なう可能性のある望ましくない偏見を継承することが示されている。
本論文は,信仰を捉え,評価するための分析的アプローチであるFairBeliefを提案する。
- 参考スコア(独自算出の注目度): 25.032952666134157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Models (LMs) have been shown to inherit undesired biases that might
hurt minorities and underrepresented groups if such systems were integrated
into real-world applications without careful fairness auditing. This paper
proposes FairBelief, an analytical approach to capture and assess beliefs,
i.e., propositions that an LM may embed with different degrees of confidence
and that covertly influence its predictions. With FairBelief, we leverage
prompting to study the behavior of several state-of-the-art LMs across
different previously neglected axes, such as model scale and likelihood,
assessing predictions on a fairness dataset specifically designed to quantify
LMs' outputs' hurtfulness. Finally, we conclude with an in-depth qualitative
assessment of the beliefs emitted by the models. We apply FairBelief to English
LMs, revealing that, although these architectures enable high performances on
diverse natural language processing tasks, they show hurtful beliefs about
specific genders. Interestingly, training procedure and dataset, model scale,
and architecture induce beliefs of different degrees of hurtfulness.
- Abstract(参考訳): 言語モデル(lms)は、もしそのようなシステムが注意深く公正な監査なしで現実世界のアプリケーションに統合されたら、少数派や少数派グループを傷つけるであろう望ましくない偏見を継承することが示されている。
本論文は,信仰を捉え,評価するための分析的アプローチであるFairBeliefを提案する。
fairbeliefでは、モデルスケールや確率など、これまで無視されていた異なる軸にまたがる最先端のlmsの挙動を調査し、特にlms出力の有害性を定量化するために設計されたフェアネスデータセット上での予測を評価する。
最後に,モデルによる信念の詳細な質的評価を行った。
本研究は、FairBeliefを英語のLMに適用し、これらのアーキテクチャは様々な自然言語処理タスクにおいて高いパフォーマンスを実現するが、特定の性別に対する有害な信念を示す。
興味深いことに、トレーニング手順とデータセット、モデルスケール、アーキテクチャは、異なるレベルの傷つきの信念を誘発する。
関連論文リスト
- Fairness Evaluation with Item Response Theory [10.871079276188649]
本稿では機械学習(ML)モデルにおける公平性を評価するための新しいFair-IRTフレームワークを提案する。
項目特性曲線(ICC)の詳細な説明は、特定の個人に対して提供される。
公平性評価ツールとしてのこのフレームワークの有効性を実証する実験を行った。
論文 参考訳(メタデータ) (2024-10-20T22:25:20Z) - Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion [9.383571944693188]
本研究では,LMが異なる振る舞いを示すことを期待できる4つの異なる予測シナリオについて検討する。
本稿では,各シナリオを例に,データセット構築のためのPrISMというモデル固有のレシピを提案する。
それぞれのシナリオに対してCTは異なる結果を生成するが、混合例の集合上の集約は、最強の計測信号によるシナリオの結果のみを表すことができる。
論文 参考訳(メタデータ) (2024-10-18T12:08:07Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers [13.644277507363036]
我々は,これらの能力が調整プロンプトとMCQの外部で測定可能かどうかを検討する。
以上の結果から, LLMの回答は, Stated Answer と大きく異なることが示唆された。
テキスト補完はLLMの中核にあるため,これらの結果は共通評価手法が部分画像のみを提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-21T08:56:35Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - All Should Be Equal in the Eyes of Language Models: Counterfactually
Aware Fair Text Generation [16.016546693767403]
本研究では,多様な階層のモデル理解を動的に比較し,より公平な文を生成する枠組みを提案する。
CAFIEはより公平なテキストを生成し、公平性と言語モデリング能力の最良のバランスを打ちます。
論文 参考訳(メタデータ) (2023-11-09T15:39:40Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。