論文の概要: SAFR: Neuron Redistribution for Interpretability
- arxiv url: http://arxiv.org/abs/2501.16374v1
- Date: Thu, 23 Jan 2025 06:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:32.059174
- Title: SAFR: Neuron Redistribution for Interpretability
- Title(参考訳): SAFR : 解釈可能性に対する神経再分布
- Authors: Ruidi Chang, Chunyuan Deng, Hanjie Chen,
- Abstract要約: 重ね合わせにより、ニューロンは複数の特徴を結合し表現することができる。
期待された性能にもかかわらず、モデルの解釈可能性は低下している。
本稿では,特徴重畳を正規化することでトランスフォーマーの解釈可能性を高める新しい手法を提案する。
- 参考スコア(独自算出の注目度): 7.756342860929851
- License:
- Abstract: Superposition refers to encoding representations of multiple features within a single neuron, which is common in transformers. This property allows neurons to combine and represent multiple features, enabling the model to capture intricate information and handle complex tasks. Despite promising performance, the model's interpretability has been diminished. This paper presents a novel approach to enhance transformer interpretability by regularizing feature superposition. We introduce SAFR, which simply applies regularizations to the loss function to promote monosemantic representations for important tokens while encouraging polysemanticity for correlated token pairs, where important tokens and correlated token pairs are identified via VMASK and attention weights. With a transformer model on two classification tasks, SAFR improves interpretability without compromising prediction performance. Given an input to the model, SAFR provides an explanation by visualizing the neuron allocation and interaction within the MLP layers.
- Abstract(参考訳): 重ね合わせ(英: superposition)とは、1つのニューロン内の複数の特徴の表現を符号化することであり、トランスフォーマーでよく見られる。
この特性により、ニューロンは複数の特徴を結合して表現することができ、複雑な情報を取得し、複雑なタスクを処理することができる。
期待された性能にもかかわらず、モデルの解釈可能性は低下している。
本稿では,特徴重畳を正規化することでトランスフォーマーの解釈可能性を高める新しい手法を提案する。
損失関数に規則化を適用することで、重要なトークンの単意味表現を促進すると同時に、重要なトークンと相関トークンのペアをVMASKとアテンションウェイトを介して識別する、相関トークンペアの多意味性を奨励する。
2つの分類タスク上のトランスフォーマーモデルにより、SAFRは予測性能を損なうことなく解釈性を向上させる。
モデルへの入力を与えられたSAFRは、MLP層内のニューロンの割り当てと相互作用を可視化することによって説明を提供する。
関連論文リスト
- Learning local discrete features in explainable-by-design convolutional neural networks [0.0]
本稿では,側方抑制機構に基づくCNN(Design-by-Design Convolutional Neural Network)を提案する。
このモデルは、残留または高密度のスキップ接続を持つ高精度CNNである予測器で構成されている。
観測を収集し,直接確率を計算することにより,隣接するレベルのモチーフ間の因果関係を説明することができる。
論文 参考訳(メタデータ) (2024-10-31T18:39:41Z) - Improving Neuron-level Interpretability with White-box Language Models [11.898535906016907]
我々は、CRATE(Coding RAte TransformEr)という、ホワイトボックストランスフォーマーのようなアーキテクチャを導入する。
包括的実験では、ニューロンレベルの解釈可能性において、顕著な改善(最大103%の相対的な改善)が見られた。
CRATEの解釈可能性の向上は、関連するトークンを一貫して一意に活性化する能力の強化によるものである。
論文 参考訳(メタデータ) (2024-10-21T19:12:33Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。
PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - NPEFF: Non-Negative Per-Example Fisher Factorization [52.44573961263344]
エンド・ツー・エンドの微分可能モデルに容易に適用可能な,NPEFFと呼ばれる新しい解釈可能性手法を提案する。
我々はNPEFFが言語モデルと視覚モデルの実験を通して解釈可能なチューニングを持つことを実証した。
論文 参考訳(メタデータ) (2023-10-07T02:02:45Z) - Interpretable Sentence Representation with Variational Autoencoders and
Attention [0.685316573653194]
自然言語処理(NLP)における近年の表現学習技術の解釈可能性を高める手法を開発した。
変動オートエンコーダ (VAEs) は, 遅延生成因子の観測に有効である。
帰納的バイアスを持つ2つのモデルを構築し、潜在表現の情報を注釈付きデータなしで理解可能な概念に分離する。
論文 参考訳(メタデータ) (2023-05-04T13:16:15Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - RatE: Relation-Adaptive Translating Embedding for Knowledge Graph
Completion [51.64061146389754]
複素空間における新たな重み付き積の上に構築された関係適応変換関数を提案する。
次に、関係適応型翻訳埋め込み(RatE)アプローチを示し、各グラフを3倍にスコアする。
論文 参考訳(メタデータ) (2020-10-10T01:30:30Z) - Making Sense of CNNs: Interpreting Deep Representations & Their
Invariances with INNs [19.398202091883366]
INN に基づくアプローチとして, (i) タスク固有の学習的不変性を, (ii) モデル表現と組み合わさった不変性を, (ii) アクセシブルなセマンティックな概念によって, 可逆的に変換する手法を提案する。
我々の非可逆的アプローチは、その性能を損なうことなく、最先端ネットワークのポストホックな解釈を可能にすることでブラックボックスモデルを理解する能力を大幅に拡張する。
論文 参考訳(メタデータ) (2020-08-04T19:27:46Z) - Autoencoding Pixies: Amortised Variational Inference with Graph
Convolutions for Functional Distributional Semantics [12.640283469603355]
Pixie Autoencoderはグラフ畳み込みニューラルネットワークを用いて関数分散セマンティックスの生成モデルを拡張して、償却変分推論を実行する。
論文 参考訳(メタデータ) (2020-05-06T17:46:40Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。