論文の概要: Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection
- arxiv url: http://arxiv.org/abs/2311.14126v1
- Date: Thu, 23 Nov 2023 17:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:38:10.868660
- Title: Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection
- Title(参考訳): 大規模言語モデルへの展望:テキストに基づくステレオタイプ検出の改善
- Authors: Wu Zekun, Sahan Bulathwela, Adriano Soares Koshiyama
- Abstract要約: i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
- 参考スコア(独自算出の注目度): 5.3634450268516565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLM) have made significant advances in the recent past
becoming more mainstream in Artificial Intelligence (AI) enabled human-facing
applications. However, LLMs often generate stereotypical output inherited from
historical data, amplifying societal biases and raising ethical concerns. This
work introduces i) the Multi-Grain Stereotype Dataset, which includes 52,751
instances of gender, race, profession and religion stereotypic text and ii) a
novel stereotype classifier for English text. We design several experiments to
rigorously test the proposed model trained on the novel dataset. Our
experiments show that training the model in a multi-class setting can
outperform the one-vs-all binary counterpart. Consistent feature importance
signals from different eXplainable AI tools demonstrate that the new model
exploits relevant text features. We utilise the newly created model to assess
the stereotypic behaviour of the popular GPT family of models and observe the
reduction of bias over time. In summary, our work establishes a robust and
practical framework for auditing and evaluating the stereotypic bias in LLM.
- Abstract(参考訳): 大規模言語モデル(llm)は、ai(artificial intelligence, 人工知能)によって人間を対象とするアプリケーションにおいて、近年大きな進歩を遂げている。
しかし、LLMは歴史的データから受け継いだステレオタイプ的な出力を生成し、社会的偏見を増幅し、倫理的関心を喚起する。
この作品を紹介する
一 性別、人種、職業及び宗教のステレオタイプテキストの52,751例を含む多粒ステレオタイプデータセット
二 英語テキストの新規なステレオタイプ分類器
そこで本研究では,新しいデータセットを用いてトレーニングしたモデルを提案する。
実験では,マルチクラス環境でモデルのトレーニングが1-vs-allバイナリセットよりも優れることを示した。
異なるeXplainable AIツールからの一貫性のある機能重要信号は、新しいモデルが関連するテキスト機能を利用することを示す。
我々は,新たに作成されたモデルを用いて,一般的なGPTモデルのステレオタイプ行動を評価し,時間とともにバイアスの低減を観察する。
まとめると,本研究はLLMのステレオタイプバイアスを監査・評価するための,堅牢で実用的な枠組みを確立している。
関連論文リスト
- REFINE-LM: Mitigating Language Model Stereotypes via Reinforcement Learning [18.064064773660174]
本稿では、強化学習を用いて様々なバイアスを微調整せずに処理する脱バイアス法REFINE-LMを紹介する。
LMの単語確率分布の上に簡単なモデルをトレーニングすることにより、バイアス強化学習法により、人間のアノテーションを使わずにモデルの偏りを抑えることができる。
複数のLMを含む多種多様なモデルで行った実験により,本手法は,LMの性能を維持しながら,ステレオタイプバイアスを著しく低減することを示した。
論文 参考訳(メタデータ) (2024-08-18T14:08:31Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。
本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文 参考訳(メタデータ) (2024-05-06T18:09:32Z) - Auditing Large Language Models for Enhanced Text-Based Stereotype Detection and Probing-Based Bias Evaluation [4.908389661988191]
この研究は、ジェンダー、人種、職業、宗教、ステレオタイプテキストにわたる51,867のインスタンスを含むマルチグラインドステレオタイプデータセットを導入している。
ステレオタイプ検出のためのベースラインを確立することを目的とした、さまざまな機械学習アプローチについて検討する。
本研究では,多言語モデルを用いたテキスト生成タスクにおけるステレオタイプの存在を評価・評価する。
論文 参考訳(メタデータ) (2024-04-02T09:31:32Z) - Evaluating Large Language Models through Gender and Racial Stereotypes [0.0]
質比較研究を行い、性別と人種の2種類の偏見を前提として、言語モデルを評価する枠組みを確立する。
より古いモデルに比べて、新しいモデルでは男女の偏見が大幅に減少したが、人種の偏見は依然として存在する。
論文 参考訳(メタデータ) (2023-11-24T18:41:16Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。