論文の概要: Can We Locate and Prevent Stereotypes in LLMs?
- arxiv url: http://arxiv.org/abs/2604.19764v1
- Date: Thu, 26 Mar 2026 20:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.056688
- Title: Can We Locate and Prevent Stereotypes in LLMs?
- Title(参考訳): LLMでステレオタイプをローカライズし、予防できるか?
- Authors: Alex D'Souza,
- Abstract要約: 本研究は, GPT2 SmallおよびLlama 3.2の内部機構を解明し, 立体タイプ関連活性化を同定する。
ステレオタイプを符号化する個々のコントラストニューロン活性化を同定し、バイアス出力に大きく寄与する注意ヘッドを検出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereotypes in large language models (LLMs) can perpetuate harmful societal biases. Despite the widespread use of models, little is known about where these biases reside in the neural network. This study investigates the internal mechanisms of GPT 2 Small and Llama 3.2 to locate stereotype related activations. We explore two approaches: identifying individual contrastive neuron activations that encode stereotypes, and detecting attention heads that contribute heavily to biased outputs. Our experiments aim to map these "bias fingerprints" and provide initial insights for mitigating stereotypes.
- Abstract(参考訳): 大規模言語モデル(LLM)のステレオタイプは、有害な社会的バイアスを持続させることができる。
モデルが広く使われているにもかかわらず、これらのバイアスがニューラルネットワークにどこにあるかはほとんど分かっていない。
本研究は, GPT2 SmallおよびLlama 3.2の内部機構を解明し, 立体タイプ関連活性化を同定する。
ステレオタイプを符号化する個々のコントラストニューロン活性化を同定し、バイアス出力に大きく寄与する注意ヘッドを検出する。
我々の実験は、これらの「バイアス指紋」をマッピングし、ステレオタイプを緩和するための最初の洞察を提供することを目的としている。
関連論文リスト
- StereoDetect: Detecting Stereotypes and Anti-stereotypes the Correct Way Using Social Psychological Underpinnings [47.02959423049043]
ステレオタイプとアンチステレオタイプの検出は、社会的知識を必要とする問題である。
本稿では, ステレオタイプ, アンチステレオタイプ, ステレオタイプバイアス, 一般バイアスの5つの定義を提案する。
サブ10B言語モデルとGPT-4oは、しばしば反ステレオタイプを誤分類し、中立的過一般化を認識できないことを示す。
論文 参考訳(メタデータ) (2025-04-04T11:14:38Z) - $\texttt{ModSCAN}$: Measuring Stereotypical Bias in Large Vision-Language Models from Vision and Language Modalities [30.960327354387054]
大規模視覚言語モデル(LVLM)は、様々な分野で急速に開発され、広く利用されているが、モデルにおける(潜在的)ステレオタイプバイアスは、ほとんど探索されていない。
我々は、先駆的な測定フレームワークである$textttModSCAN$を、LVLM内のステレオタイプバイアスである$underlineSCAN$に提示する。
論文 参考訳(メタデータ) (2024-10-09T15:07:05Z) - Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models [9.734705470760511]
我々はGlobalBiasを使って世界中の幅広いステレオタイプを研究しています。
与えられた名前に基づいて文字プロファイルを生成し、モデル出力におけるステレオタイプの有効性を評価する。
論文 参考訳(メタデータ) (2024-07-09T14:52:52Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。