論文の概要: Auditing Large Language Models for Enhanced Text-Based Stereotype Detection and Probing-Based Bias Evaluation
- arxiv url: http://arxiv.org/abs/2404.01768v1
- Date: Tue, 2 Apr 2024 09:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 17:09:01.470307
- Title: Auditing Large Language Models for Enhanced Text-Based Stereotype Detection and Probing-Based Bias Evaluation
- Title(参考訳): テキストに基づくステレオタイプ検出と探索に基づくバイアス評価のための大規模言語モデルの検討
- Authors: Zekun Wu, Sahan Bulathwela, Maria Perez-Ortiz, Adriano Soares Koshiyama,
- Abstract要約: この研究は、ジェンダー、人種、職業、宗教、ステレオタイプテキストにわたる51,867のインスタンスを含むマルチグラインドステレオタイプデータセットを導入している。
ステレオタイプ検出のためのベースラインを確立することを目的とした、さまざまな機械学習アプローチについて検討する。
本研究では,多言語モデルを用いたテキスト生成タスクにおけるステレオタイプの存在を評価・評価する。
- 参考スコア(独自算出の注目度): 4.908389661988191
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly increased their presence in human-facing Artificial Intelligence (AI) applications. However, LLMs could reproduce and even exacerbate stereotypical outputs from training data. This work introduces the Multi-Grain Stereotype (MGS) dataset, encompassing 51,867 instances across gender, race, profession, religion, and stereotypical text, collected by fusing multiple previously publicly available stereotype detection datasets. We explore different machine learning approaches aimed at establishing baselines for stereotype detection, and fine-tune several language models of various architectures and model sizes, presenting in this work a series of stereotypes classifier models for English text trained on MGS. To understand whether our stereotype detectors capture relevant features (aligning with human common sense) we utilise a variety of explanainable AI tools, including SHAP, LIME, and BertViz, and analyse a series of example cases discussing the results. Finally, we develop a series of stereotype elicitation prompts and evaluate the presence of stereotypes in text generation tasks with popular LLMs, using one of our best performing previously presented stereotypes detectors. Our experiments yielded several key findings: i) Training stereotype detectors in a multi-dimension setting yields better results than training multiple single-dimension classifiers.ii) The integrated MGS Dataset enhances both the in-dataset and cross-dataset generalisation ability of stereotype detectors compared to using the datasets separately. iii) There is a reduction in stereotypes in the content generated by GPT Family LLMs with newer versions.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩は、人工知能(AI)の応用において、その存在感を著しく高めている。
しかし、LSMはトレーニングデータからステレオタイプ出力を再現し、さらに悪化させることができた。
この研究は、Multi-Grain Stereotype (MGS)データセットを導入し、性別、人種、職業、宗教、ステレオタイプテキストの51,867のインスタンスを包含し、これまでに公開された複数のステレオタイプ検出データセットを融合して収集した。
ステレオタイプ検出のためのベースラインを確立することを目的とした、さまざまな機械学習アプローチを探求し、様々なアーキテクチャとモデルサイズの言語モデルを微調整し、本研究では、MGSで訓練された英語テキストのための一連のステレオタイプ分類モデルを示す。
我々のステレオタイプ検出器が関連する特徴(人間の常識に合わせて)を捉えているかどうかを理解するために、SHAP、LIME、BertVizなど、さまざまな説明可能なAIツールを活用し、その結果を議論する一連の事例を分析します。
最後に,これまでに提示したステレオタイプ検出器の1つを用いて,テキスト生成タスクにおけるステレオタイプの存在を評価・評価する。
実験の結果, 多次元環境下でのステレオタイプ検出器の訓練は, 複数の単次元分類器を訓練するよりも優れた結果が得られることがわかった。
三 GPT ファミリー LLM の新たなバージョンによるコンテンツにステレオタイプが減少していること。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models [9.734705470760511]
我々はGlobalBiasを使って世界中の幅広いステレオタイプを研究しています。
与えられた名前に基づいて文字プロファイルを生成し、モデル出力におけるステレオタイプの有効性を評価する。
論文 参考訳(メタデータ) (2024-07-09T14:52:52Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文 参考訳(メタデータ) (2023-11-23T17:47:14Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Counteracts: Testing Stereotypical Representation in Pre-trained
Language Models [4.211128681972148]
我々は,事前学習言語モデル(PLM)の内部ステレオタイプ知識を調べるために,反例を用いている。
我々は,9種類のクローゼスタイルのプロンプトに対して,異なる情報と基本知識で7つのPLMを評価する。
論文 参考訳(メタデータ) (2023-01-11T07:52:59Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked
Language Models [30.582132471411263]
Crowd Stereotype Pairsベンチマーク(CrowS-Pairs)を紹介する。
CrowS-Pairsには1508の例があり、人種、宗教、年齢など9種類の偏見を扱うステレオタイプをカバーしている。
その結果, CrowS-Pairs の各カテゴリーにおいて, 広く使われている3つの文のすべてが, 実質的にステレオタイプを好んでいることがわかった。
論文 参考訳(メタデータ) (2020-09-30T22:38:40Z) - StereoSet: Measuring stereotypical bias in pretrained language models [24.020149562072127]
我々は,4つの領域におけるステレオタイプバイアスを測定するために,英語の大規模自然データセットであるStereoSetを提案する。
我々は,BERT,GPT-2,RoBERTa,XLNetなどの人気モデルをデータセット上で評価し,これらのモデルが強いステレオタイプバイアスを示すことを示す。
論文 参考訳(メタデータ) (2020-04-20T17:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。