Fugu-MT 論文翻訳(概要): Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs

論文の概要: Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs

arxiv url: http://arxiv.org/abs/2410.11179v1
Date: Tue, 15 Oct 2024 01:38:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.546002
Title: Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs
Title（参考訳）: 圧縮としての解釈可能性:MDL-SAEを用いた神経活動のSAE説明の再考
Authors: Kola Ayonrinde, Michael T. Pearce, Lee Sharkey,
Abstract要約: 本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Autoencoders (SAEs) have emerged as a useful tool for interpreting the internal representations of neural networks. However, naively optimising SAEs for reconstruction loss and sparsity results in a preference for SAEs that are extremely wide and sparse. We present an information-theoretic framework for interpreting SAEs as lossy compression algorithms for communicating explanations of neural activations. We appeal to the Minimal Description Length (MDL) principle to motivate explanations of activations which are both accurate and concise. We further argue that interpretable SAEs require an additional property, "independent additivity": features should be able to be understood separately. We demonstrate an example of applying our MDL-inspired framework by training SAEs on MNIST handwritten digits and find that SAE features representing significant line segments are optimal, as opposed to SAEs with features for memorised digits from the dataset or small digit fragments. We argue that using MDL rather than sparsity may avoid potential pitfalls with naively maximising sparsity such as undesirable feature splitting and that this framework naturally suggests new hierarchical SAE architectures which provide more concise explanations.
Abstract（参考訳）: スパースオートエンコーダ(SAE)は、ニューラルネットワークの内部表現を解釈するための有用なツールとして登場した。しかし, 再建損失と疎度に対するSAEの経時的最適化は, 極端に広く, 疎度なSAEを優先する結果となった。本稿では,神経活動の説明を伝達するための圧縮アルゴリズムとして,SAEを解釈するための情報理論フレームワークを提案する。我々は、正確かつ簡潔なアクティベーションの説明を動機付けるために、最小記述長(MDL)の原則に訴える。さらに、解釈可能なSAEは「独立な加法性」という追加的な性質を必要とする: 特徴は別々に理解できるべきである。我々は,MNISTの手書き桁にSAEをトレーニングしてMDLにインスパイアされたフレームワークを適用する例を示し,データセットや小桁の断片を記憶したSAEとは対照的に,重要な行セグメントを表すSAE特徴が最適であることを示した。スパーシリティではなくMDLを使用することは、望ましくない特徴分割などの空間性を大幅に最大化することで潜在的な落とし穴を回避できる可能性があり、このフレームワークは自然により簡潔な説明を提供する新しい階層型SAEアーキテクチャを示唆している、と我々は主張する。

関連論文リスト

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
Dense SAE Latents Are Features, Not Bugs [75.08462524662072]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文参考訳（メタデータ） (2025-06-18T17:59:35Z)
Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文参考訳（メタデータ） (2025-05-21T23:31:21Z)
Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。 SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文参考訳（メタデータ） (2025-05-16T23:30:17Z)
Empirical Evaluation of Progressive Coding for Sparse Autoencoders [45.94517951918044]
バニラSAEにおける辞書の重要性は権力法に従っていることを示す。 SAEは再建損失が低く,言語モデリング損失が回復したことを示す。
論文参考訳（メタデータ） (2025-04-30T21:08:32Z)
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
スパースオートエンコーダ (SAEs) は,大規模言語モデル (LLMs) の解釈可能性と操舵性を向上させることが示されている。本研究では,SAEをCLIPなどの視覚言語モデル(VLM)に適用し,視覚表現における単意味性を評価するための総合的な枠組みを導入する。
論文参考訳（メタデータ） (2025-04-03T17:58:35Z)
Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality [3.9230690073443166]
そこで本研究では,スパース特徴ベクトルの大きさを,その正則な閉形式誤差境界を持つ密度ベクトルを用いて近似できることを示す。本稿では,AFA (Approximate Activation Feature) を提案する。トップAFA SAE は最先端の最先端 SAE に匹敵する再構築損失を達成できることを実証する。
論文参考訳（メタデータ） (2025-03-31T16:22:11Z)
I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-12T01:21:17Z)
Interpreting CLIP with Hierarchical Sparse Autoencoders [8.692675181549117]
サエマトリオシュカ(MSAE)は複数の粒度の階層的表現を同時に学習する。 MSAEは、CLIPの再構築品質とスパーシリティの間に新しい最先端のフロンティアを確立する。
論文参考訳（メタデータ） (2025-02-27T22:39:13Z)
Compute Optimal Inference and Provable Amortisation Gap in Sparse Autoencoders [0.0]
スパース符号化のレンズを用いて,SAEにおけるスパース推論と学習について検討した。計算制限付きエンコーダを用いて,SAEがアモータイズされたスパース推論を行うことを示す。より洗練されたスパース推論手法が従来のSAEエンコーダより優れている条件を実証的に探求する。
論文参考訳（メタデータ） (2024-11-20T08:21:53Z)
Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。 textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文参考訳（メタデータ） (2024-11-02T11:42:23Z)
Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models [26.748765050034876]
特殊スパースオートエンコーダ(SSAE)は、特定の点に注目して、暗黒物質の特徴を照らす。 SSAEは,汎用SAEの能力を超越して,サブドメインのテール概念を効果的に捉えていることを示す。 SSAEs の実用性について,Bias in Bios データセットのケーススタディで紹介し,SSAEs が有意な性別情報を除去するために適用した場合,最悪のグループ分類精度が 12.5% 向上することを示した。
論文参考訳（メタデータ） (2024-11-01T17:09:34Z)
Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文参考訳（メタデータ） (2024-10-27T17:33:49Z)
Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。 SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文参考訳（メタデータ） (2024-10-17T17:56:01Z)
A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders [0.0]
階層的特徴のスパース分解と分割は堅牢ではないことを示す。具体的には、モノセマンティックな特徴が本来あるべき場所に放たれるのに失敗し、代わりに子供の特徴に"吸収"されることを示す。
論文参考訳（メタデータ） (2024-09-22T16:11:02Z)
Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文参考訳（メタデータ） (2024-08-01T15:46:22Z)
Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。記号の配置に非依存であり、それによって表現される意味論にのみ依存する。識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文参考訳（メタデータ） (2024-05-12T22:18:25Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Improving Self-Supervised Learning by Characterizing Idealized Representations [155.1457170539049]
与えられたデータ拡張に不変なタスクに対して必要かつ十分な条件を証明します。対照的に、我々のフレームワークは、従来の手法に対して単純だが重要な改善を規定している。非コントラスト学習では、私たちのフレームワークを使って、シンプルで斬新な目的を導き出します。
論文参考訳（メタデータ） (2022-09-13T18:01:03Z)
Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文参考訳（メタデータ） (2021-10-28T16:12:33Z)
Discovering "Semantics" in Super-Resolution Networks [54.45509260681529]
超解像(SR)は低レベルの視覚領域の基本的で代表的な課題である。一般に、SRネットワークから抽出された特徴は特定の意味情報を持たないと考えられている。 SRネットワークで「セマンティック」を見つけることはできますか?
論文参考訳（メタデータ） (2021-08-01T09:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。