論文の概要: Tracing Stereotypes in Pre-trained Transformers: From Biased Neurons to Fairer Models
- arxiv url: http://arxiv.org/abs/2601.05663v1
- Date: Fri, 09 Jan 2026 09:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.931599
- Title: Tracing Stereotypes in Pre-trained Transformers: From Biased Neurons to Fairer Models
- Title(参考訳): 事前訓練型トランスフォーマーの追跡ステレオタイプ:バイアスニューロンからフェアラーモデルへ
- Authors: Gianmario Voria, Moses Openja, Foutse Khomh, Gemma Catolino, Fabio Palomba,
- Abstract要約: バイアスド・ナレッジは小ニューロンのサブセットに局在しており、その抑制は性能損失を最小限に抑えてバイアスを大幅に減少させることを示す。
これは、トランスフォーマーのバイアスがニューロンレベルで追跡され緩和されることを示し、ソフトウェア工学における公平性に対する解釈可能なアプローチを提供する。
- 参考スコア(独自算出の注目度): 14.304725301908457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of transformer-based language models has reshaped how AI systems process and generate text. In software engineering (SE), these models now support diverse activities, accelerating automation and decision-making. Yet, evidence shows that these models can reproduce or amplify social biases, raising fairness concerns. Recent work on neuron editing has shown that internal activations in pre-trained transformers can be traced and modified to alter model behavior. Building on the concept of knowledge neurons, neurons that encode factual information, we hypothesize the existence of biased neurons that capture stereotypical associations within pre-trained transformers. To test this hypothesis, we build a dataset of biased relations, i.e., triplets encoding stereotypes across nine bias types, and adapt neuron attribution strategies to trace and suppress biased neurons in BERT models. We then assess the impact of suppression on SE tasks. Our findings show that biased knowledge is localized within small neuron subsets, and suppressing them substantially reduces bias with minimal performance loss. This demonstrates that bias in transformers can be traced and mitigated at the neuron level, offering an interpretable approach to fairness in SE.
- Abstract(参考訳): トランスフォーマーベースの言語モデルの出現は、AIシステムがテキストを処理し、生成する方法を大きく変えた。
ソフトウェアエンジニアリング(SE)では、これらのモデルはさまざまなアクティビティをサポートし、自動化と意思決定を加速します。
しかし、これらのモデルが社会的偏見を再現または増幅し、公正な懸念を提起する証拠が示されている。
ニューロン編集に関する最近の研究は、事前訓練されたトランスフォーマーの内部の活性化を追跡・修正し、モデル行動を変化させることを示した。
知識ニューロン、事実情報をエンコードするニューロンの概念に基づいて、事前学習されたトランスフォーマー内のステレオタイプ関連を捉えるバイアスニューロンの存在を仮定する。
この仮説を検証するために、9つのバイアスタイプにまたがるステレオタイプを符号化する三重項というバイアス付き関係のデータセットを構築し、BERTモデルにおけるバイアス付きニューロンの追跡と抑制にニューロン帰属戦略を適用する。
次に、SEタスクに対する抑制の影響を評価する。
以上の結果より, バイアスド・ナレッジは小ニューロンサブセットに局在しており, バイアスを抑えることで, パフォーマンス損失を最小に抑えることが示唆された。
このことは、トランスフォーマーのバイアスがニューロンレベルで追跡され緩和され、SEの公平性に対する解釈可能なアプローチを提供することを示している。
関連論文リスト
- NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models [63.592664795493725]
NOBLEは、解釈可能なニューロンの特徴を連続周波数変調した埋め込みから電流注入によって誘導されるソマティック電圧応答へのマッピングを学ぶ神経オペレーターフレームワークである。
内在的な実験変数を考慮したニューラルダイナミクスの分布を予測する。
NOBLEは、その一般化を実際の実験データで検証する最初の大規模ディープラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T01:01:18Z) - Can Test-time Computation Mitigate Memorization Bias in Neural Symbolic Regression? [32.15408441849578]
記号回帰は、与えられた数値データに適合する数学的方程式を発見することを目的としている。
大規模合成データセットで事前訓練されたトランスフォーマーを含む最近の手法が注目されている。
これらの手法は、短い推論時間などの利点を提供するが、特に入力変数の数が大きい場合、低い性能に悩まされる。
論文 参考訳(メタデータ) (2025-05-28T08:01:25Z) - Mitigating Biases for Instruction-following Language Models via Bias Neurons Elimination [54.865941973768905]
本稿では,命令追従設定における言語モデルのバイアスニューロンを除去するための,新しい実用的なバイアス緩和手法であるCRISPRを提案する。
CRISPRは自動的にバイアス出力を決定し、バイアス出力に影響を与えるニューロンを説明可能性法を用いてバイアスニューロンに分類する。
実験により,モデルのタスク性能と既存知識を損なうことなく,ゼロショット命令追従条件下でのバイアス軽減効果が示された。
論文 参考訳(メタデータ) (2023-11-16T07:16:55Z) - Neuroformer: Multimodal and Multitask Generative Pretraining for Brain Data [3.46029409929709]
最先端のシステム神経科学実験は大規模なマルチモーダルデータを生み出し、これらのデータセットは分析のための新しいツールを必要とする。
視覚領域と言語領域における大きな事前学習モデルの成功に触発されて、我々は大規模な細胞分解性神経スパイクデータの解析を自己回帰生成問題に再構成した。
我々はまず、シミュレーションデータセットでNeuroformerを訓練し、本質的なシミュレートされた神経回路の動作を正確に予測し、方向を含む基盤となる神経回路の接続性を推定した。
論文 参考訳(メタデータ) (2023-10-31T20:17:32Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Neural Networks with Recurrent Generative Feedback [61.90658210112138]
畳み込みニューラルネットワーク(CNN)でこの設計をインスタンス化する
実験では、標準ベンチマーク上の従来のフィードフォワードCNNに対して、CNN-Fは敵のロバスト性を大幅に改善した。
論文 参考訳(メタデータ) (2020-07-17T19:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。