論文の概要: Profiling Bias in LLMs: Stereotype Dimensions in Contextual Word Embeddings
- arxiv url: http://arxiv.org/abs/2411.16527v1
- Date: Mon, 25 Nov 2024 16:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:39.841412
- Title: Profiling Bias in LLMs: Stereotype Dimensions in Contextual Word Embeddings
- Title(参考訳): LLMにおけるプロファイリングバイアス:文脈語埋め込みにおけるステレオタイプ次元
- Authors: Carolin M. Schuster, Maria-Alexandra Dinisor, Shashwat Ghatiwala, Georg Groh,
- Abstract要約: 大規模言語モデル(LLM)は、人工知能(AI)の現在の成功の基礎である。
リスクを効果的に伝達し、緩和努力を促進するために、これらのモデルは識別特性を適切に直感的に記述する必要がある。
社会心理学研究の辞書に基づくステレオタイプ次元に関するバイアスプロファイルを提案する。
- 参考スコア(独自算出の注目度): 1.5379084885764847
- License:
- Abstract: Large language models (LLMs) are the foundation of the current successes of artificial intelligence (AI), however, they are unavoidably biased. To effectively communicate the risks and encourage mitigation efforts these models need adequate and intuitive descriptions of their discriminatory properties, appropriate for all audiences of AI. We suggest bias profiles with respect to stereotype dimensions based on dictionaries from social psychology research. Along these dimensions we investigate gender bias in contextual embeddings, across contexts and layers, and generate stereotype profiles for twelve different LLMs, demonstrating their intuition and use case for exposing and visualizing bias.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現在の人工知能(AI)の成功の基盤であるが、それらは必然的にバイアスを受けている。
リスクを効果的に伝達し、緩和努力を促進するために、これらのモデルには、AIのすべてのオーディエンスに適した、識別特性の適切かつ直感的な説明が必要である。
社会心理学研究の辞書に基づくステレオタイプ次元に関するバイアスプロファイルを提案する。
これらの次元に沿って、文脈的埋め込み、コンテキストや階層をまたいだ性別バイアスを調査し、12の異なるLCMのステレオタイププロファイルを生成し、その直観と使用例を示し、バイアスを露呈し視覚化する。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。
これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。
本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。
論文 参考訳(メタデータ) (2024-07-11T12:30:19Z) - Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models [10.73340009530019]
本研究は,Large Language Models (LLMs) における2つのバイアス,代表バイアスと親和性バイアスに対処する。
我々は,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を導入する。
我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。
親和性バイアスによる各モデルにおける特徴的評価パターンの解明
論文 参考訳(メタデータ) (2024-05-23T13:35:34Z) - Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。
本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文 参考訳(メタデータ) (2024-05-06T18:09:32Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文 参考訳(メタデータ) (2023-11-23T17:47:14Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - Worst of Both Worlds: Biases Compound in Pre-trained Vision-and-Language
Models [17.90351661475405]
この研究は、テキストベースのバイアス分析手法を拡張し、マルチモーダル言語モデルを調べる。
VL-BERTが性別バイアスを示し、視覚シーンを忠実に表現するよりもステレオタイプを強化することを好むことが多いことを実証します。
論文 参考訳(メタデータ) (2021-04-18T00:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。