論文の概要: Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective
- arxiv url: http://arxiv.org/abs/2506.05166v1
- Date: Thu, 05 Jun 2025 15:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.791494
- Title: Dissecting Bias in LLMs: A Mechanistic Interpretability Perspective
- Title(参考訳): LLMにおける解離バイアス--機械論的解釈可能性の観点から
- Authors: Bhavik Chandna, Zubair Bashir, Procheta Sen,
- Abstract要約: 大規模言語モデル(LLM)は、社会的、人口統計学的、性別的偏見を示すことが知られている。
我々は、GPT-2やLlama2のようなモデルの中で、そのようなバイアスがどのように構造的に表現されるかを分析する。
これらの成分を除去することで、バイアスのある出力を削減できるだけでなく、他のNLPタスクにも影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 4.17645248123697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are known to exhibit social, demographic, and gender biases, often as a consequence of the data on which they are trained. In this work, we adopt a mechanistic interpretability approach to analyze how such biases are structurally represented within models such as GPT-2 and Llama2. Focusing on demographic and gender biases, we explore different metrics to identify the internal edges responsible for biased behavior. We then assess the stability, localization, and generalizability of these components across dataset and linguistic variations. Through systematic ablations, we demonstrate that bias-related computations are highly localized, often concentrated in a small subset of layers. Moreover, the identified components change across fine-tuning settings, including those unrelated to bias. Finally, we show that removing these components not only reduces biased outputs but also affects other NLP tasks, such as named entity recognition and linguistic acceptability judgment because of the sharing of important components with these tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば訓練されたデータの結果、社会的、人口統計学的、性別的偏見を示すことが知られている。
本研究では,GPT-2 や Llama2 などのモデルにおいて,そのようなバイアスがどのように構造的に表現されるかを分析するために,機械論的解釈可能性アプローチを採用する。
人口統計やジェンダーの偏見に着目して、偏見のある行動の原因となる内部のエッジを特定するために、さまざまな指標を探索する。
次に、これらのコンポーネントの安定性、局所化、一般化可能性について、データセットと言語的バリエーションで評価する。
体系的なアブレーションを通じて、バイアスに関連した計算が高度に局所化され、しばしば少数の層に集中していることが示される。
さらに、特定されたコンポーネントは、バイアスとは無関係なコンポーネントを含む微調整設定によって変化する。
最後に、これらの成分の除去は、偏りのある出力を減らすだけでなく、これらのタスクと重要な成分の共有のため、名前付きエンティティ認識や言語受容性判定などの他のNLPタスクにも影響を及ぼすことを示す。
関連論文リスト
- Blind Men and the Elephant: Diverse Perspectives on Gender Stereotypes in Benchmark Datasets [17.101242741559428]
本稿では,言語モデルの固有バイアス緩和と測定戦略に焦点を当てる。
我々は、本質的な測定を深く掘り下げ、矛盾を識別し、これらのベンチマークがジェンダーステレオタイプの違いを反映している可能性を示唆している。
本研究は, 言語モデルにおけるジェンダーステレオタイピングの複雑さと, 偏見の検出・低減のための, より洗練された手法を開発するための新たな方向性を指摘するものである。
論文 参考訳(メタデータ) (2025-01-02T09:40:31Z) - Robustness and Confounders in the Demographic Alignment of LLMs with Human Perceptions of Offensiveness [10.194622474615462]
大規模言語モデル(LLM)は人口統計学的バイアスを示すことが知られているが、複数のデータセットにまたがってこれらのバイアスを体系的に評価する研究は少ない。
以上の結果から、人口統計学的特徴、特に人種、影響のアライメントはデータセット間で矛盾し、しばしば他の要因と絡み合っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-13T19:08:23Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z) - Identifying and Adapting Transformer-Components Responsible for Gender
Bias in an English Language Model [1.6343144783668118]
言語モデル(LM)は、性別バイアスを含むトレーニングデータから得られた多くの種類の望ましくないバイアスを示し、増幅する。
本研究では,LM成分と特定の出力の因果関係を同定する3つの手法について検討する。
本手法をGPT-2の小型化と性別バイアスの問題に適用し,検出した成分群を用いてパラメータ効率の良い微調整を行い,バイアス軽減を行う。
論文 参考訳(メタデータ) (2023-10-19T09:39:21Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。