論文の概要: GRADIEND: Feature Learning within Neural Networks Exemplified through Biases
- arxiv url: http://arxiv.org/abs/2502.01406v3
- Date: Sun, 21 Sep 2025 10:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:44.719754
- Title: GRADIEND: Feature Learning within Neural Networks Exemplified through Biases
- Title(参考訳): GRADIEND: バイアスで実証したニューラルネットワークの機能学習
- Authors: Jonathan Drechsel, Steffen Herbold,
- Abstract要約: 本研究では、モデル勾配を利用した新しいエンコーダデコーダアプローチを導入し、ジェンダー、人種、宗教などの社会的バイアス情報をコードする特徴ニューロンを学習する。
我々の手法は、機能を変更するためにモデルの重みを変更する必要があるかを識別できるだけでなく、他の機能を保ちながらモデルを書き直すのにも使えることを示した。
- 参考スコア(独自算出の注目度): 3.602377086789099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI systems frequently exhibit and amplify social biases, leading to harmful consequences in critical areas. This study introduces a novel encoder-decoder approach that leverages model gradients to learn a feature neuron encoding societal bias information such as gender, race, and religion. We show that our method can not only identify which weights of a model need to be changed to modify a feature, but even demonstrate that this can be used to rewrite models to debias them while maintaining other capabilities. We demonstrate the effectiveness of our approach across various model architectures and highlight its potential for broader applications.
- Abstract(参考訳): AIシステムは、しばしば社会的偏見を示し、増幅し、重要な領域で有害な結果をもたらす。
本研究では、モデル勾配を利用した新しいエンコーダデコーダアプローチを導入し、ジェンダー、人種、宗教などの社会的バイアス情報をコードする特徴ニューロンを学習する。
我々の手法は、機能を変更するためにモデルの重みを変更する必要があるかを識別できるだけでなく、他の機能を保ちながらモデルを書き直すのにも使えることを示した。
様々なモデルアーキテクチャにまたがるアプローチの有効性を実証し、より広範なアプリケーションに対するその可能性を強調します。
関連論文リスト
- Gender Encoding Patterns in Pretrained Language Model Representations [17.101242741559428]
プレトレーニング言語モデル(PLM)におけるジェンダーバイアスは、社会的および倫理的課題を生じさせる。
本研究では,ジェンダーバイアスがエンコーダベースのアーキテクチャでどのようにエンコードされているかを分析するための情報理論的アプローチを採用する。
論文 参考訳(メタデータ) (2025-03-09T19:17:46Z) - Understanding and Mitigating Gender Bias in LLMs via Interpretable Neuron Editing [19.472889262384818]
大きな言語モデル(LLM)は、しばしばジェンダーバイアスを示し、安全なデプロイメントのための課題を提起する。
我々の分析では、モデルにまたがる広範囲なバイアスを明らかにし、ジェンダーニューロンや一般的なニューロンを含む特定のニューロン回路を同定する。
本稿では,ロジットベースと因果ベースの戦略を組み合わせた解釈可能なニューロン編集手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T12:41:30Z) - Mechanistic Neural Networks for Scientific Machine Learning [58.99592521721158]
我々は、科学における機械学習応用のためのニューラルネットワーク設計であるメカニスティックニューラルネットワークを提案する。
新しいメカニスティックブロックを標準アーキテクチャに組み込んで、微分方程式を表現として明示的に学習する。
我々のアプローチの中心は、線形プログラムを解くために線形ODEを解く技術に着想を得た、新しい線形計画解法(NeuRLP)である。
論文 参考訳(メタデータ) (2024-02-20T15:23:24Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Graph Foundation Models: Concepts, Opportunities and Challenges [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
一般化と適応における基礎モデルの能力は、グラフ機械学習研究者を動機付け、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - The Birth of Bias: A case study on the evolution of gender bias in an
English language model [1.6344851071810076]
私たちは、英語のウィキペディアコーパスでトレーニングされたLSTMアーキテクチャを使って、比較的小さな言語モデルを使用します。
性別の表現は動的であり、訓練中に異なる位相を識別する。
モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されることが示される。
論文 参考訳(メタデータ) (2022-07-21T00:59:04Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Toward More Generalized Malicious URL Detection Models [4.151658495779136]
本稿では、悪意のあるURL検出のための機械学習モデルを実行中に、パフォーマンスに深刻な影響を及ぼす可能性のあるデータバイアス問題を明らかにする。
このようなバイアスが解釈可能な機械学習技術を用いてどのように識別できるかを説明し、そのようなバイアスが分類モデルを訓練するための現実世界のセキュリティデータに自然に存在することを論じる。
偏りのある特徴から負の効果を緩和するために、多くのディープラーニングベースモデルに適用可能な偏りのあるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-02-21T07:46:03Z) - Entropy optimized semi-supervised decomposed vector-quantized
variational autoencoder model based on transfer learning for multiclass text
classification and generation [3.9318191265352196]
多クラステキスト分類とテキスト生成のための半教師付き離散潜在変数モデルを提案する。
提案モデルは,量子化変圧器モデルの学習に伝達学習の概念を用いる。
実験結果から,提案モデルが最先端モデルを大幅に上回ったことが示唆された。
論文 参考訳(メタデータ) (2021-11-10T07:07:54Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Certified Monotonic Neural Networks [15.537695725617576]
本稿では,混合整数線形計画問題の解法により,一般のピースワイド線形ニューラルネットワークの単調性を証明することを提案する。
我々のアプローチでは、重み空間に対する人間設計の制約を必要とせず、より正確な近似が得られる。
論文 参考訳(メタデータ) (2020-11-20T04:58:13Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Brain-inspired global-local learning incorporated with neuromorphic
computing [35.70151531581922]
我々は,脳に触発されたメタラーニングパラダイムと,神経力学とシナプス可塑性を取り入れた識別可能なスパイキングモデルを導入することで,ニューロモルフィックハイブリッド学習モデルを報告した。
ニューロモルフィック・ビジョン・センサにおける数ショット学習、連続学習、フォールトトレランス学習を含む複数のタスクにおいて、このモデルの利点を実証する。
論文 参考訳(メタデータ) (2020-06-05T04:24:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。