論文の概要: GRADIEND: Monosemantic Feature Learning within Neural Networks Applied to Gender Debiasing of Transformer Models
- arxiv url: http://arxiv.org/abs/2502.01406v1
- Date: Mon, 03 Feb 2025 14:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:05:47.931124
- Title: GRADIEND: Monosemantic Feature Learning within Neural Networks Applied to Gender Debiasing of Transformer Models
- Title(参考訳): GRADIEND: トランスフォーマーモデルのジェンダーデバイアスに応用したニューラルネットワーク内の単意味特徴学習
- Authors: Jonathan Drechsel, Steffen Herbold,
- Abstract要約: ジェンダー情報を符号化する単一単意味特徴ニューロンを学習するための新しいエンコーダ・デコーダ手法を提案する。
提案手法はトランスフォーマーに基づく言語モデルのデバイアス化に有効であり,他の機能も維持可能であることを示す。
- 参考スコア(独自算出の注目度): 4.84187718353576
- License:
- Abstract: AI systems frequently exhibit and amplify social biases, including gender bias, leading to harmful consequences in critical areas. This study introduces a novel encoder-decoder approach that leverages model gradients to learn a single monosemantic feature neuron encoding gender information. We show that our method can be used to debias transformer-based language models, while maintaining other capabilities. We demonstrate the effectiveness of our approach across multiple encoder-only based models and highlight its potential for broader applications.
- Abstract(参考訳): AIシステムは、しばしばジェンダーバイアスを含む社会的偏見を示し、増幅し、臨界領域において有害な結果をもたらす。
本研究では, モデル勾配を利用して, ジェンダー情報を符号化する単一単意味特徴ニューロンを学習するエンコーダ・デコーダ手法を提案する。
提案手法はトランスフォーマーに基づく言語モデルのデバイアス化に有効であり,他の機能も維持可能であることを示す。
我々は,複数のエンコーダのみに基づくモデルにまたがるアプローチの有効性を実証し,より広範な応用の可能性を明らかにする。
関連論文リスト
- Understanding and Mitigating Gender Bias in LLMs via Interpretable Neuron Editing [19.472889262384818]
大きな言語モデル(LLM)は、しばしばジェンダーバイアスを示し、安全なデプロイメントのための課題を提起する。
我々の分析では、モデルにまたがる広範囲なバイアスを明らかにし、ジェンダーニューロンや一般的なニューロンを含む特定のニューロン回路を同定する。
本稿では,ロジットベースと因果ベースの戦略を組み合わせた解釈可能なニューロン編集手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T12:41:30Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - The Contextual Lasso: Sparse Linear Models via Deep Neural Networks [5.607237982617641]
本研究では,空間的特徴の関数として空間的パターンと係数が変化するような説明的特徴に疎線形モデルに適合する新しい統計的推定器を開発する。
実データと合成データに関する広範な実験は、学習されたモデルは、非常に透明であり、通常のラッソよりもスペーサーであることを示している。
論文 参考訳(メタデータ) (2023-02-02T05:00:29Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Toward More Generalized Malicious URL Detection Models [4.151658495779136]
本稿では、悪意のあるURL検出のための機械学習モデルを実行中に、パフォーマンスに深刻な影響を及ぼす可能性のあるデータバイアス問題を明らかにする。
このようなバイアスが解釈可能な機械学習技術を用いてどのように識別できるかを説明し、そのようなバイアスが分類モデルを訓練するための現実世界のセキュリティデータに自然に存在することを論じる。
偏りのある特徴から負の効果を緩和するために、多くのディープラーニングベースモデルに適用可能な偏りのあるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-02-21T07:46:03Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Certified Monotonic Neural Networks [15.537695725617576]
本稿では,混合整数線形計画問題の解法により,一般のピースワイド線形ニューラルネットワークの単調性を証明することを提案する。
我々のアプローチでは、重み空間に対する人間設計の制約を必要とせず、より正確な近似が得られる。
論文 参考訳(メタデータ) (2020-11-20T04:58:13Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。