論文の概要: Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs
- arxiv url: http://arxiv.org/abs/2410.11179v1
- Date: Tue, 15 Oct 2024 01:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:09.436763
- Title: Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs
- Title(参考訳): 圧縮としての解釈可能性:MDL-SAEを用いた神経活動のSAE説明の再考
- Authors: Kola Ayonrinde, Michael T. Pearce, Lee Sharkey,
- Abstract要約: 本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sparse Autoencoders (SAEs) have emerged as a useful tool for interpreting the internal representations of neural networks. However, naively optimising SAEs for reconstruction loss and sparsity results in a preference for SAEs that are extremely wide and sparse. We present an information-theoretic framework for interpreting SAEs as lossy compression algorithms for communicating explanations of neural activations. We appeal to the Minimal Description Length (MDL) principle to motivate explanations of activations which are both accurate and concise. We further argue that interpretable SAEs require an additional property, "independent additivity": features should be able to be understood separately. We demonstrate an example of applying our MDL-inspired framework by training SAEs on MNIST handwritten digits and find that SAE features representing significant line segments are optimal, as opposed to SAEs with features for memorised digits from the dataset or small digit fragments. We argue that using MDL rather than sparsity may avoid potential pitfalls with naively maximising sparsity such as undesirable feature splitting and that this framework naturally suggests new hierarchical SAE architectures which provide more concise explanations.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークの内部表現を解釈するための有用なツールとして登場した。
しかし, 再建損失と疎度に対するSAEの経時的最適化は, 極端に広く, 疎度なSAEを優先する結果となった。
本稿では,神経活動の説明を伝達するための圧縮アルゴリズムとして,SAEを解釈するための情報理論フレームワークを提案する。
我々は、正確かつ簡潔なアクティベーションの説明を動機付けるために、最小記述長(MDL)の原則に訴える。
さらに、解釈可能なSAEは「独立な加法性」という追加的な性質を必要とする: 特徴は別々に理解できるべきである。
我々は,MNISTの手書き桁にSAEをトレーニングしてMDLにインスパイアされたフレームワークを適用する例を示し,データセットや小桁の断片を記憶したSAEとは対照的に,重要な行セグメントを表すSAE特徴が最適であることを示した。
スパーシリティではなくMDLを使用することは、望ましくない特徴分割などの空間性を大幅に最大化することで潜在的な落とし穴を回避できる可能性があり、このフレームワークは自然により簡潔な説明を提供する新しい階層型SAEアーキテクチャを示唆している、と我々は主張する。
関連論文リスト
- Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。
textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文 参考訳(メタデータ) (2024-11-02T11:42:23Z) - Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models [26.748765050034876]
特殊スパースオートエンコーダ(SSAE)は、特定の点に注目して、暗黒物質の特徴を照らす。
SSAEは,汎用SAEの能力を超越して,サブドメインのテール概念を効果的に捉えていることを示す。
SSAEs の実用性について,Bias in Bios データセットのケーススタディで紹介し,SSAEs が有意な性別情報を除去するために適用した場合,最悪のグループ分類精度が 12.5% 向上することを示した。
論文 参考訳(メタデータ) (2024-11-01T17:09:34Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Improving Self-Supervised Learning by Characterizing Idealized
Representations [155.1457170539049]
与えられたデータ拡張に不変なタスクに対して必要かつ十分な条件を証明します。
対照的に、我々のフレームワークは、従来の手法に対して単純だが重要な改善を規定している。
非コントラスト学習では、私たちのフレームワークを使って、シンプルで斬新な目的を導き出します。
論文 参考訳(メタデータ) (2022-09-13T18:01:03Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - Discovering "Semantics" in Super-Resolution Networks [54.45509260681529]
超解像(SR)は低レベルの視覚領域の基本的で代表的な課題である。
一般に、SRネットワークから抽出された特徴は特定の意味情報を持たないと考えられている。
SRネットワークで「セマンティック」を見つけることはできますか?
論文 参考訳(メタデータ) (2021-08-01T09:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。