Fugu-MT 論文翻訳(概要): SAFR: Neuron Redistribution for Interpretability

論文の概要: SAFR: Neuron Redistribution for Interpretability

arxiv url: http://arxiv.org/abs/2501.16374v2
Date: Tue, 11 Feb 2025 00:26:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 16:10:29.566705
Title: SAFR: Neuron Redistribution for Interpretability
Title（参考訳）: SAFR : 解釈可能性に対する神経再分布
Authors: Ruidi Chang, Chunyuan Deng, Hanjie Chen,
Abstract要約: 重ね合わせ(英: superposition)とは、単一ニューロン内の複数の特徴の表現を符号化することである。期待された性能にもかかわらず、モデルの解釈可能性は低下している。本稿では,特徴重畳を正規化することによってモデル解釈可能性を高める新しい手法を提案する。
参考スコア（独自算出の注目度）: 7.756342860929851
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Superposition refers to encoding representations of multiple features within a single neuron, which is common in deep neural networks. This property allows neurons to combine and represent multiple features, enabling the model to capture intricate information and handle complex tasks. Despite promising performance, the model's interpretability has been diminished. This paper presents a novel approach to enhance model interpretability by regularizing feature superposition. We introduce SAFR, which simply applies regularizations to the loss function to promote monosemantic representations for important tokens while encouraging polysemanticity for correlated token pairs, where important tokens and correlated token pairs are identified via VMASK and attention weights respectively. We evaluate SAFR with a transformer model on two classification tasks. Experiments demonstrate the effectiveness of SAFR in improving model interpretability without compromising prediction performance. Besides, SAFR provides explanations by visualizing the neuron allocation within the intermediate layers.
Abstract（参考訳）: 重ね合わせ(英: superposition)とは、ディープニューラルネットワークで一般的な単一のニューロン内の複数の特徴の表現を符号化することである。この特性により、ニューロンは複数の特徴を結合して表現することができ、複雑な情報を取得し、複雑なタスクを処理することができる。期待された性能にもかかわらず、モデルの解釈可能性は低下している。本稿では,特徴重畳を正規化することによってモデル解釈可能性を高める新しい手法を提案する。損失関数に規則化を適用することで、重要なトークンの単意味表現を促進すると同時に、重要なトークンと相関トークンのペアがそれぞれVMASKとアテンションウェイトを介して識別されるような相関トークンペアの多意味性を奨励する。 2つの分類課題における変換器モデルを用いてSAFRを評価する。予測性能を損なうことなくモデル解釈性を向上させるためのSAFRの有効性を示す実験を行った。さらに、SAFRは中間層内のニューロンの割り当てを可視化することで説明を提供する。

関連論文リスト

Sparse Autoencoder Neural Operators: Model Recovery in Function Spaces [75.45093712182624]
本研究では,スパースオートエンコーダ(SAE)を昇降空間や無限次元関数空間に拡張し,大規模ニューラル演算子(NO)の機械的解釈性を実現するフレームワークを提案する。我々は、SAE、リフト-SAE、SAEニューラル演算子の推論とトレーニングのダイナミクスを比較した。我々は、リフトと演算子モジュールが有益な帰納バイアスを導入し、より高速なリカバリを可能にし、スムーズな概念のリカバリを改善し、様々な解像度にわたる堅牢な推論を可能にした点を強調した。
論文参考訳（メタデータ） (2025-09-03T21:57:03Z)
SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [54.390403684665834]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。視覚的意味論から神経反応への変換を確率的かつ生物学的に解釈可能な方法でシミュレートする生成フレームワークであるSynBrainを提案する。実験結果から,SynBrainは被写体特異的視覚-fMRI符号化性能において最先端の手法を超越していることが示された。
論文参考訳（メタデータ） (2025-08-14T03:01:05Z)
Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。 Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文参考訳（メタデータ） (2025-06-12T17:33:29Z)
I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-12T01:21:17Z)
Learning local discrete features in explainable-by-design convolutional neural networks [0.0]
本稿では,側方抑制機構に基づくCNN(Design-by-Design Convolutional Neural Network)を提案する。このモデルは、残留または高密度のスキップ接続を持つ高精度CNNである予測器で構成されている。観測を収集し,直接確率を計算することにより,隣接するレベルのモチーフ間の因果関係を説明することができる。
論文参考訳（メタデータ） (2024-10-31T18:39:41Z)
Interpretable Next-token Prediction via the Generalized Induction Head [59.500195503897764]
一般化帰納型モデル (GIM) は次点予測のための解釈可能なモデルである。言語モデリングでは、GIMは解釈可能なベースラインに対して最大25%の速さで次世代の予測を改善する。 fMRI設定では、GIMは神経反応予測を20%改善する。
論文参考訳（メタデータ） (2024-10-31T12:33:26Z)
Improving Neuron-level Interpretability with White-box Language Models [11.898535906016907]
我々は、CRATE(Coding RAte TransformEr)という、ホワイトボックストランスフォーマーのようなアーキテクチャを導入する。包括的実験では、ニューロンレベルの解釈可能性において、顕著な改善(最大103%の相対的な改善)が見られた。 CRATEの解釈可能性の向上は、関連するトークンを一貫して一意に活性化する能力の強化によるものである。
論文参考訳（メタデータ） (2024-10-21T19:12:33Z)
PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。 PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-24T07:57:21Z)
Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文参考訳（メタデータ） (2023-11-26T06:56:02Z)
NPEFF: Non-Negative Per-Example Fisher Factorization [52.44573961263344]
エンド・ツー・エンドの微分可能モデルに容易に適用可能な,NPEFFと呼ばれる新しい解釈可能性手法を提案する。我々はNPEFFが言語モデルと視覚モデルの実験を通して解釈可能なチューニングを持つことを実証した。
論文参考訳（メタデータ） (2023-10-07T02:02:45Z)
Interpretable Sentence Representation with Variational Autoencoders and Attention [0.685316573653194]
自然言語処理(NLP)における近年の表現学習技術の解釈可能性を高める手法を開発した。変動オートエンコーダ (VAEs) は, 遅延生成因子の観測に有効である。帰納的バイアスを持つ2つのモデルを構築し、潜在表現の情報を注釈付きデータなしで理解可能な概念に分離する。
論文参考訳（メタデータ） (2023-05-04T13:16:15Z)
Learning Disentangled Semantic Spaces of Explanations via Invertible Neural Networks [10.880057430629126]
切り離された潜在空間は、通常、より良い意味分離性と幾何学的性質を持ち、より良い解釈可能性とより制御可能なデータ生成をもたらす。本研究では,より一般的な文意味的特徴の局所的な修正と制御を目的とした,文の絡み合いのより一般的な形態に着目した。本稿では,トランスフォーマベース言語であるオートエンコーダ(AE)と統合されたフローベース可逆ニューラルネットワーク(INN)機構を導入し,より分離性に優れた潜在空間を実現する。
論文参考訳（メタデータ） (2023-05-02T18:27:13Z)
Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文参考訳（メタデータ） (2021-12-23T17:04:12Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
FF-NSL: Feed-Forward Neural-Symbolic Learner [70.978007919101]
本稿では,Feed-Forward Neural-Symbolic Learner (FF-NSL) と呼ばれるニューラルシンボリック学習フレームワークを紹介する。 FF-NSLは、ラベル付き非構造化データから解釈可能な仮説を学習するために、Answer Setセマンティクスに基づく最先端のICPシステムとニューラルネットワークを統合する。
論文参考訳（メタデータ） (2021-06-24T15:38:34Z)
It's FLAN time! Summing feature-wise latent representations for interpretability [0.0]
FLAN(Feature-wise Latent Additive Networks)と呼ばれる構造拘束型ニューラルネットワークの新たなクラスを提案する。 FLANは各入力機能を別々に処理し、それぞれに共通の潜在空間の表現を演算する。これらの特徴的潜在表現は単純に要約され、集約された表現は予測に使用される。
論文参考訳（メタデータ） (2021-06-18T12:19:33Z)
And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。 MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文参考訳（メタデータ） (2021-02-15T08:19:05Z)
Explaining and Improving Model Behavior with k Nearest Neighbor Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文参考訳（メタデータ） (2020-10-18T16:55:25Z)
Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文参考訳（メタデータ） (2020-10-15T16:57:27Z)
RatE: Relation-Adaptive Translating Embedding for Knowledge Graph Completion [51.64061146389754]
複素空間における新たな重み付き積の上に構築された関係適応変換関数を提案する。次に、関係適応型翻訳埋め込み(RatE)アプローチを示し、各グラフを3倍にスコアする。
論文参考訳（メタデータ） (2020-10-10T01:30:30Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)
GAMI-Net: An Explainable Neural Network based on Generalized Additive Models with Structured Interactions [5.8010446129208155]
構造的相互作用を持つ一般化付加モデル(GAMI-Net)に基づく説明可能なニューラルネットワークを提案し,予測精度とモデル解釈可能性とのバランスを良好に追求する。 GAMI-Net(英語版)は、複数の添加物を持つ非絡み合ったフィードフォワードネットワークである。合成関数と実世界のデータセットの双方に関する数値実験により,提案モデルが優れた解釈性を有することが示された。
論文参考訳（メタデータ） (2020-03-16T11:51:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。