論文の概要: Compute Optimal Inference and Provable Amortisation Gap in Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2411.13117v1
- Date: Wed, 20 Nov 2024 08:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:17.852664
- Title: Compute Optimal Inference and Provable Amortisation Gap in Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダにおける計算最適推論と確率的補正ギャップ
- Authors: Charles O'Neill, David Klindt,
- Abstract要約: スパース符号化のレンズを用いて,SAEにおけるスパース推論と学習について検討した。
計算制限付きエンコーダを用いて,SAEがアモータイズされたスパース推論を行うことを示す。
より洗練されたスパース推論手法が従来のSAEエンコーダより優れている条件を実証的に探求する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A recent line of work has shown promise in using sparse autoencoders (SAEs) to uncover interpretable features in neural network representations. However, the simple linear-nonlinear encoding mechanism in SAEs limits their ability to perform accurate sparse inference. In this paper, we investigate sparse inference and learning in SAEs through the lens of sparse coding. Specifically, we show that SAEs perform amortised sparse inference with a computationally restricted encoder and, using compressed sensing theory, we prove that this mapping is inherently insufficient for accurate sparse inference, even in solvable cases. Building on this theory, we empirically explore conditions where more sophisticated sparse inference methods outperform traditional SAE encoders. Our key contribution is the decoupling of the encoding and decoding processes, which allows for a comparison of various sparse encoding strategies. We evaluate these strategies on two dimensions: alignment with true underlying sparse features and correct inference of sparse codes, while also accounting for computational costs during training and inference. Our results reveal that substantial performance gains can be achieved with minimal increases in compute cost. We demonstrate that this generalises to SAEs applied to large language models (LLMs), where advanced encoders achieve similar interpretability. This work opens new avenues for understanding neural network representations and offers important implications for improving the tools we use to analyse the activations of large language models.
- Abstract(参考訳): 最近の研究は、ニューラルネットワーク表現の解釈可能な特徴を明らかにするためにスパースオートエンコーダ(SAE)を使用することを約束している。
しかし、SAEの単純な線形非線形符号化機構は、正確なスパース推論を行う能力を制限する。
本稿では,スパース符号化のレンズを用いたSAEにおけるスパース推論と学習について検討する。
具体的には、SAEが計算的に制限されたエンコーダを用いて補正されたスパース推論を行い、圧縮されたセンシング理論を用いて、このマッピングが解決可能なケースにおいても、本質的には正確なスパース推論に不十分であることを証明した。
この理論に基づいて、より洗練されたスパース推論手法が従来のSAEエンコーダより優れている条件を実証的に探求する。
私たちの重要な貢献はエンコーディングとデコードプロセスの分離であり、様々なスパースエンコーディング戦略の比較を可能にします。
我々はこれらの戦略を,真のスパース特徴との整合性,スパース符号の正しい推論,トレーニングと推論における計算コストの考慮の2次元で評価する。
その結果,計算コストが最小限に抑えられることで,大幅な性能向上が達成できることが判明した。
このことは,大規模言語モデル (LLM) に適用されたSAEに一般化し,高度なエンコーダが同様の解釈可能性を実現することを実証する。
この研究は、ニューラルネットワーク表現を理解するための新しい道を開き、大きな言語モデルのアクティベーションを分析するために私たちが使っているツールを改善するために重要な意味を提供する。
関連論文リスト
- A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Symmetric Equilibrium Learning of VAEs [56.56929742714685]
可変オートエンコーダ(VAE)をデコーダ-エンコーダペアとみなし,データ空間内の分布を潜在空間内の分布にマッピングする。
本研究では,エンコーダとデコーダに対して対称なナッシュ均衡学習手法を提案し,データと潜伏分布の両方がサンプリングによってのみアクセス可能な状況下でのVAEの学習を可能にする。
論文 参考訳(メタデータ) (2023-07-19T10:27:34Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Fundamental Limits of Two-layer Autoencoders, and Achieving Them with
Gradient Methods [91.54785981649228]
本稿では,非線形二層型オートエンコーダについて述べる。
本結果は,人口リスクの最小化要因を特徴付け,その最小化要因が勾配法によって達成されることを示す。
符号アクティベーション関数の特別な場合において、この解析は、シャローオートエンコーダによるガウス音源の損失圧縮の基本的な限界を確立する。
論文 参考訳(メタデータ) (2022-12-27T12:37:34Z) - Variational Sparse Coding with Learned Thresholding [6.737133300781134]
サンプルをしきい値にすることでスパース分布を学習できる変分スパース符号化の新しい手法を提案する。
まず,線形発生器を訓練し,その性能,統計的効率,勾配推定に優れることを示す。
論文 参考訳(メタデータ) (2022-05-07T14:49:50Z) - The Interpretable Dictionary in Sparse Coding [4.205692673448206]
我々の研究では、スパースコーディングを特定の空間的制約の下で訓練したANNが、標準的なディープラーニングモデルよりも解釈可能なモデルを生成することを説明している。
スパース符号で学習した辞書はより容易に理解でき、これらの要素の活性化は選択的な特徴出力を生成する。
論文 参考訳(メタデータ) (2020-11-24T00:26:40Z) - MetaSDF: Meta-learning Signed Distance Functions [85.81290552559817]
ニューラルな暗示表現で形状を一般化することは、各関数空間上の学習先行値に比例する。
形状空間の学習をメタラーニング問題として定式化し、勾配に基づくメタラーニングアルゴリズムを利用してこの課題を解決する。
論文 参考訳(メタデータ) (2020-06-17T05:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。