Fugu-MT 論文翻訳(概要): Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders

論文の概要: Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders

arxiv url: http://arxiv.org/abs/2411.01220v2
Date: Wed, 06 Nov 2024 08:42:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.662685
Title: Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders
Title（参考訳）: 特徴適応スパースオートエンコーダによるニューラルネットワークの解釈性向上
Authors: Luke Marks, Alasdair Paren, David Krueger, Fazl Barez,
Abstract要約: 類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。 textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
参考スコア（独自算出の注目度）: 8.003244901104111
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Autoencoders (SAEs) have shown promise in improving the interpretability of neural network activations, but can learn features that are not features of the input, limiting their effectiveness. We propose \textsc{Mutual Feature Regularization} \textbf{(MFR)}, a regularization technique for improving feature learning by encouraging SAEs trained in parallel to learn similar features. We motivate \textsc{MFR} by showing that features learned by multiple SAEs are more likely to correlate with features of the input. By training on synthetic data with known features of the input, we show that \textsc{MFR} can help SAEs learn those features, as we can directly compare the features learned by the SAE with the input features for the synthetic data. We then scale \textsc{MFR} to SAEs that are trained to denoise electroencephalography (EEG) data and SAEs that are trained to reconstruct GPT-2 Small activations. We show that \textsc{MFR} can improve the reconstruction loss of SAEs by up to 21.21\% on GPT-2 Small, and 6.67\% on EEG data. Our results suggest that the similarity between features learned by different SAEs can be leveraged to improve SAE training, thereby enhancing performance and the usefulness of SAEs for model interpretability.
Abstract（参考訳）: スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションの解釈性を改善することを約束しているが、入力の特徴ではない特徴を学習し、その有効性を制限できる。類似した特徴を学習するために、並列訓練されたSAEを奨励することにより、特徴学習を改善するための正規化手法である。我々は、複数のSAEによって学習された特徴が入力の特徴と相関する可能性が高いことを示すことによって、 \textsc{MFR} を動機付けている。入力の既知の特徴を持つ合成データをトレーニングすることにより、SAEが学習した特徴と合成データの入力特徴を直接比較することにより、SAEがこれらの特徴を学習するのに役立つことを示す。次に、脳波(EEG)データと、GPT-2の小さな活性化を再現するために訓練されたSAEを識別するために訓練されたSAEに「textsc{MFR}」をスケールする。我々は, GPT-2 では 21.21 %, EEG では 6.67 % の SAE の再構成損失を最大で 21.21 % 改善できることを示す。実験結果から,異なるSAEで学習した特徴の類似性を利用して,SAE訓練の改善を図り,SAEの性能向上とモデルの解釈性向上に寄与することが示唆された。

関連論文リスト

Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [53.398270878295754]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文参考訳（メタデータ） (2025-08-06T11:22:23Z)
FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies [3.709351921096894]
本稿では,モデル自身の合成データセット上でSAEを学習するFithfulSAEを提案する。より低OOD命令データセット上でのSAEのトレーニングにより,SAEの種子間安定性が向上することが実証された。
論文参考訳（メタデータ） (2025-06-21T10:18:25Z)
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文参考訳（メタデータ） (2025-05-21T23:31:21Z)
Tokenized SAEs: Disentangling SAE Reconstructions [0.9821874476902969]
RES-JB SAEの特徴は, 単純な入力統計値に主に対応していることを示す。特徴再構成からトークン再構成を分離する手法を提案する。
論文参考訳（メタデータ） (2025-02-24T17:04:24Z)
Disentangling CLIP Features for Enhanced Localized Understanding [58.73850193789384]
提案するUnmix-CLIPは,相互特徴情報(MFI)の低減と特徴の絡み合いの改善を目的とした新しいフレームワークである。 COCO-14データセットでは、Unmix-CLIPは機能の類似性を24.9%削減している。
論文参考訳（メタデータ） (2025-02-05T08:20:31Z)
Training Strategies for Isolated Sign Language Recognition [72.27323884094953]
本稿では,孤立手話認識のための包括的モデル学習パイプラインを提案する。構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。 WLASLとSlovoのベンチマークでは、以前のベストソリューションと比較して1.63%と14.12%の改善が得られた。
論文参考訳（メタデータ） (2024-12-16T08:37:58Z)
Understanding the Role of Equivariance in Self-supervised Learning [51.56331245499712]
同変自己教師学習(E-SSL)は、拡張に注意する機能を学ぶ。我々は、同変タスクと分類タスクの相乗効果を生成するE-SSLにおける重要な説明アウト効果を同定する。 E-SSLの実用設計の原則をいくつか明らかにする。
論文参考訳（メタデータ） (2024-11-10T16:09:47Z)
Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文参考訳（メタデータ） (2024-10-27T17:33:49Z)
Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。 SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文参考訳（メタデータ） (2024-10-17T17:56:01Z)
Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文参考訳（メタデータ） (2024-10-15T01:38:03Z)
Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models [18.77400885091398]
本稿では,チェスやオセロ文字で訓練されたLMの設定を用いて,解釈可能な辞書学習の進展を測定することを提案する。新しいSAEトレーニングテクニックである$textitp-annealing$を導入しました。
論文参考訳（メタデータ） (2024-07-31T18:45:13Z)
Identifying Functionally Important Features with End-to-End Sparse Dictionary Learning [0.9374652839580183]
ニューラルネットワークによって学習された特徴を特定することは、機械的解釈可能性における中核的な課題である。本稿では,SAEの学習方法であるエンドツーエンドのスパース辞書学習を提案する。我々は,e2e SAE特徴と標準SAE特徴との幾何学的および定性的差異について検討する。
論文参考訳（メタデータ） (2024-05-17T17:03:46Z)
Robust Learning with Progressive Data Expansion Against Spurious Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-08T05:44:06Z)
RaSa: Relation and Sensitivity Aware Representation Learning for Text-based Person Search [51.09723403468361]
関係性と感性を考慮した表現学習法(RaSa)を提案する。 RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
論文参考訳（メタデータ） (2023-05-23T03:53:57Z)
Toward Understanding the Feature Learning Process of Self-supervised Contrastive Learning [43.504548777955854]
本研究では,その特徴学習過程を解析することにより,ニューラルネットワークの特徴表現のコントラスト学習について検討する。 textbfReLUネットワークを用いたコントラスト学習は、適切な拡張が採用されれば、所望のスパース特徴を確実に学習できることを実証する。
論文参考訳（メタデータ） (2021-05-31T16:42:09Z)
Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-11-13T06:01:46Z)
Probing Linguistic Features of Sentence-Level Representations in Neural Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文参考訳（メタデータ） (2020-04-17T09:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。