論文の概要: Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection
- arxiv url: http://arxiv.org/abs/2311.14126v1
- Date: Thu, 23 Nov 2023 17:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:38:10.868660
- Title: Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection
- Title(参考訳): 大規模言語モデルへの展望:テキストに基づくステレオタイプ検出の改善
- Authors: Wu Zekun, Sahan Bulathwela, Adriano Soares Koshiyama
- Abstract要約: i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
- 参考スコア(独自算出の注目度): 5.3634450268516565
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLM) have made significant advances in the recent past
becoming more mainstream in Artificial Intelligence (AI) enabled human-facing
applications. However, LLMs often generate stereotypical output inherited from
historical data, amplifying societal biases and raising ethical concerns. This
work introduces i) the Multi-Grain Stereotype Dataset, which includes 52,751
instances of gender, race, profession and religion stereotypic text and ii) a
novel stereotype classifier for English text. We design several experiments to
rigorously test the proposed model trained on the novel dataset. Our
experiments show that training the model in a multi-class setting can
outperform the one-vs-all binary counterpart. Consistent feature importance
signals from different eXplainable AI tools demonstrate that the new model
exploits relevant text features. We utilise the newly created model to assess
the stereotypic behaviour of the popular GPT family of models and observe the
reduction of bias over time. In summary, our work establishes a robust and
practical framework for auditing and evaluating the stereotypic bias in LLM.
- Abstract(参考訳): 大規模言語モデル(llm)は、ai(artificial intelligence, 人工知能)によって人間を対象とするアプリケーションにおいて、近年大きな進歩を遂げている。
しかし、LLMは歴史的データから受け継いだステレオタイプ的な出力を生成し、社会的偏見を増幅し、倫理的関心を喚起する。
この作品を紹介する
一 性別、人種、職業及び宗教のステレオタイプテキストの52,751例を含む多粒ステレオタイプデータセット
二 英語テキストの新規なステレオタイプ分類器
そこで本研究では,新しいデータセットを用いてトレーニングしたモデルを提案する。
実験では,マルチクラス環境でモデルのトレーニングが1-vs-allバイナリセットよりも優れることを示した。
異なるeXplainable AIツールからの一貫性のある機能重要信号は、新しいモデルが関連するテキスト機能を利用することを示す。
我々は,新たに作成されたモデルを用いて,一般的なGPTモデルのステレオタイプ行動を評価し,時間とともにバイアスの低減を観察する。
まとめると,本研究はLLMのステレオタイプバイアスを監査・評価するための,堅牢で実用的な枠組みを確立している。
関連論文リスト
- Evaluating Large Language Models through Gender and Racial Stereotypes [0.0]
質比較研究を行い、性別と人種の2種類の偏見を前提として、言語モデルを評価する枠組みを確立する。
より古いモデルに比べて、新しいモデルでは男女の偏見が大幅に減少したが、人種の偏見は依然として存在する。
論文 参考訳(メタデータ) (2023-11-24T18:41:16Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Language Agents for Detecting Implicit Stereotypes in Text-to-image
Models at Scale [45.64096601242646]
テキスト・ツー・イメージモデルにおけるステレオタイプ検出に適した新しいエージェントアーキテクチャを提案する。
複数のオープンテキストデータセットに基づいたステレオタイプ関連ベンチマークを構築した。
これらのモデルは、個人的特性に関する特定のプロンプトに関して、深刻なステレオタイプを示すことが多い。
論文 参考訳(メタデータ) (2023-10-18T08:16:29Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Non-Invasive Fairness in Learning through the Lens of Data Drift [88.37640805363317]
データや学習アルゴリズムを変更することなく、機械学習モデルの公平性を向上する方法を示す。
異なる集団間の傾向のばらつきと、学習モデルと少数民族間の連続的な傾向は、データドリフトと類似している。
このドリフトを解決するための2つの戦略(モデル分割とリウィーディング)を探索し、基礎となるデータに対するモデル全体の適合性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-03-30T17:30:42Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。