論文の概要: RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of
Conversational Language Models
- arxiv url: http://arxiv.org/abs/2106.03521v1
- Date: Mon, 7 Jun 2021 11:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 07:22:30.449424
- Title: RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of
Conversational Language Models
- Title(参考訳): RedditBias:会話型言語モデルのバイアス評価とデバイアスのための実世界のリソース
- Authors: Soumya Barikeri, Anne Lauscher, Ivan Vuli\'c, and Goran Glava\v{s}
- Abstract要約: テキスト表現モデルは、様々な社会的バイアスを示す傾向がある。
最近の研究は、事前訓練された言語モデルにおけるバイアスの測定と緩和に重点を置いている。
RedditBiasは、Redditによる人間の会話をベースとした初めての会話データセットだ。
- 参考スコア(独自算出の注目度): 37.98671828283487
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text representation models are prone to exhibit a range of societal biases,
reflecting the non-controlled and biased nature of the underlying pretraining
data, which consequently leads to severe ethical issues and even bias
amplification. Recent work has predominantly focused on measuring and
mitigating bias in pretrained language models. Surprisingly, the landscape of
bias measurements and mitigation resources and methods for conversational
language models is still very scarce: it is limited to only a few types of
bias, artificially constructed resources, and completely ignores the impact
that debiasing methods may have on the final performance in dialog tasks, e.g.,
conversational response generation. In this work, we present RedditBias, the
first conversational data set grounded in the actual human conversations from
Reddit, allowing for bias measurement and mitigation across four important bias
dimensions: gender, race, religion, and queerness. Further, we develop an
evaluation framework which simultaneously 1) measures bias on the developed
RedditBias resource, and 2) evaluates model capability in dialog tasks after
model debiasing. We use the evaluation framework to benchmark the widely used
conversational DialoGPT model along with the adaptations of four debiasing
methods. Our results indicate that DialoGPT is biased with respect to religious
groups and that some debiasing techniques can remove this bias while preserving
downstream task performance.
- Abstract(参考訳): テキスト表現モデルは、基礎となる事前学習データの非制御的かつ偏った性質を反映して、幅広い社会バイアスを示す傾向にあり、結果として厳しい倫理的問題やバイアス増幅につながる。
最近の研究は主に、事前訓練された言語モデルのバイアスの測定と緩和に焦点を当てている。
驚いたことに、会話型言語モデルのためのバイアス測定と緩和リソースと手法の展望は、まだ非常に乏しく、少数の種類のバイアスに限られており、人工的に構築されたリソースに限られており、会話型応答生成のようなダイアログタスクの最終的なパフォーマンスにデバイアス手法が与える影響を完全に無視している。
本研究では,redditの実際の会話に基礎を置いた最初の会話データであるredditbiasを提示し,性別,人種,宗教,クィアネスという4つの重要なバイアス次元におけるバイアス測定と緩和を可能にする。
さらに,1)開発したRedditBiasリソースのバイアスを同時に測定する評価フレームワークを開発し,2)モデルデバイアス後のダイアログタスクにおけるモデル能力を評価する。
評価フレームワークを用いて、広く使われている対話型ダイアロGPTモデルと4つのデバイアス手法の適応をベンチマークする。
以上の結果から,DialoGPTは宗教団体に偏りがあり,下流のタスク性能を保ちながら,偏りを除去する手法もあることが示唆された。
関連論文リスト
- Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Bias in Opinion Summarisation from Pre-training to Adaptation: A Case
Study in Political Bias [4.964212137957899]
オピニオン要約は、製品レビュー、ディスカッションフォーラム、ソーシャルメディアのテキストなどの文書で提示される健全な情報と意見を要約することを目的としている。
偏見のある要約を作ることは 世論を揺さぶるリスクがあります
論文 参考訳(メタデータ) (2024-02-01T04:15:59Z) - Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - The Impact of Debiasing on the Performance of Language Models in
Downstream Tasks is Underestimated [70.23064111640132]
我々は、幅広いベンチマークデータセットを用いて、複数の下流タスクのパフォーマンスに対するデバイアスの影響を比較した。
実験により、デバイアスの効果は全てのタスクにおいて一貫して見積もられていることが示されている。
論文 参考訳(メタデータ) (2023-09-16T20:25:34Z) - Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing [98.07536837448293]
大規模言語モデル(LLM)は、様々な人口層に対して有害で人間らしいバイアスを示すことが示されている。
生成言語モデルにおけるバイアスを頑健に測定するためのdesiderataのリストを紹介する。
次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令チューニングバージョンを含む、最先端のオープンソースLLMをテストします。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - Debiasing Stance Detection Models with Counterfactual Reasoning and
Adversarial Bias Learning [15.68462203989933]
スタンス検出モデルは、ショートカットとしてテキスト部分のデータセットバイアスに依存する傾向がある。
より正確にバイアスをモデル化するための逆バイアス学習モジュールを提案する。
論文 参考訳(メタデータ) (2022-12-20T16:20:56Z) - Towards an Enhanced Understanding of Bias in Pre-trained Neural Language
Models: A Survey with Special Emphasis on Affective Bias [2.6304695993930594]
本稿では,大規模な事前学習言語モデルにおけるバイアスの理解,それらの発生ステージの分析,およびこれらのバイアスを定量化し緩和する様々な方法を提案する。
ビジネス,医療,教育などの実世界のシステムにおいて,テキストによる情緒的コンピューティングに基づく下流作業の幅広い適用性を考慮すると,感情(感情)の文脈における偏見(感情)、すなわち感情的バイアス(Affective Bias)の探究に特に重点を置いている。
本稿では,将来の研究を支援する各種バイアス評価コーパスの概要と,事前学習言語モデルにおけるバイアス研究の課題について述べる。
論文 参考訳(メタデータ) (2022-04-21T18:51:19Z) - An Empirical Survey of the Effectiveness of Debiasing Techniques for
Pre-Trained Language Models [4.937002982255573]
最近の研究によると、事前学習された言語モデルは、訓練されたテキストコーパスから社会的偏見を捉えている。
最近提案された5つのデバイアス技術: 対実データ拡張、ドロップアウト、イテレーティブヌルスペース投影、セルフデバイアス、センテンスデバイアス。
3つの異なるバイアスベンチマークを用いて各手法の有効性を定量化するとともに,これらの手法がモデル言語モデリング能力に与える影響を計測する。
論文 参考訳(メタデータ) (2021-10-16T09:40:30Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。