論文の概要: Tokenized SAEs: Disentangling SAE Reconstructions
- arxiv url: http://arxiv.org/abs/2502.17332v1
- Date: Mon, 24 Feb 2025 17:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:03.933892
- Title: Tokenized SAEs: Disentangling SAE Reconstructions
- Title(参考訳): トークン化SAE:SAE再建の難しさ
- Authors: Thomas Dooms, Daniel Wilhelm,
- Abstract要約: RES-JB SAEの特徴は, 単純な入力統計値に主に対応していることを示す。
特徴再構成からトークン再構成を分離する手法を提案する。
- 参考スコア(独自算出の注目度): 0.9821874476902969
- License:
- Abstract: Sparse auto-encoders (SAEs) have become a prevalent tool for interpreting language models' inner workings. However, it is unknown how tightly SAE features correspond to computationally important directions in the model. This work empirically shows that many RES-JB SAE features predominantly correspond to simple input statistics. We hypothesize this is caused by a large class imbalance in training data combined with a lack of complex error signals. To reduce this behavior, we propose a method that disentangles token reconstruction from feature reconstruction. This improvement is achieved by introducing a per-token bias, which provides an enhanced baseline for interesting reconstruction. As a result, significantly more interesting features and improved reconstruction in sparse regimes are learned.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、言語モデルの内部動作を解釈するための一般的なツールとなっている。
しかし、SAE特徴がモデルにおいてどれだけ計算上重要な方向に対応するかは分かっていない。
この研究は、RES-JB SAEの多くの特徴が単純な入力統計に主に対応していることを実証的に示している。
これは、トレーニングデータの大規模なクラス不均衡と、複雑なエラー信号の欠如が原因である、という仮説を立てる。
そこで本稿では,トークンの復元を特徴的再構成から切り離す手法を提案する。
この改善は、興味深い再構築のための強化されたベースラインを提供する、トークン単位のバイアスを導入することで達成される。
その結果、より興味深い特徴とスパース体制の再構築が得られた。
関連論文リスト
- Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。
textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文 参考訳(メタデータ) (2024-11-02T11:42:23Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization [18.24882084542254]
本稿では,この誤差を90%以上削減する再構成手法を提案する。
キャリブレーションデータを自己生成する戦略は、再構築と一般化のトレードオフを軽減することができる。
論文 参考訳(メタデータ) (2024-06-21T05:13:34Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - Inexact Simplification of Symbolic Regression Expressions with Locality-sensitive Hashing [0.7373617024876725]
シンボリック回帰は、データセットに正確に適合するパラメトリックモデルを検索し、単純さと解釈可能性の優先順位付けを行う。
高速な代数的単純化を適用することは、式を完全に単純化するものではなく、式のサイズや複雑さによって正確な方法が実現できない可能性がある。
局所性に敏感なハッシュ(LHS)を用いた効率的なメモ化を用いたSRの単純化と肥大化制御を提案する。
論文 参考訳(メタデータ) (2024-04-08T22:54:14Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。