Fugu-MT 論文翻訳(概要): Tokenized SAEs: Disentangling SAE Reconstructions

論文の概要: Tokenized SAEs: Disentangling SAE Reconstructions

arxiv url: http://arxiv.org/abs/2502.17332v1
Date: Mon, 24 Feb 2025 17:04:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.683406
Title: Tokenized SAEs: Disentangling SAE Reconstructions
Title（参考訳）: トークン化SAE:SAE再建の難しさ
Authors: Thomas Dooms, Daniel Wilhelm,
Abstract要約: RES-JB SAEの特徴は, 単純な入力統計値に主に対応していることを示す。特徴再構成からトークン再構成を分離する手法を提案する。
参考スコア（独自算出の注目度）: 0.9821874476902969
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse auto-encoders (SAEs) have become a prevalent tool for interpreting language models' inner workings. However, it is unknown how tightly SAE features correspond to computationally important directions in the model. This work empirically shows that many RES-JB SAE features predominantly correspond to simple input statistics. We hypothesize this is caused by a large class imbalance in training data combined with a lack of complex error signals. To reduce this behavior, we propose a method that disentangles token reconstruction from feature reconstruction. This improvement is achieved by introducing a per-token bias, which provides an enhanced baseline for interesting reconstruction. As a result, significantly more interesting features and improved reconstruction in sparse regimes are learned.
Abstract（参考訳）: スパースオートエンコーダ(SAE)は、言語モデルの内部動作を解釈するための一般的なツールとなっている。しかし、SAE特徴がモデルにおいてどれだけ計算上重要な方向に対応するかは分かっていない。この研究は、RES-JB SAEの多くの特徴が単純な入力統計に主に対応していることを実証的に示している。これは、トレーニングデータの大規模なクラス不均衡と、複雑なエラー信号の欠如が原因である、という仮説を立てる。そこで本稿では,トークンの復元を特徴的再構成から切り離す手法を提案する。この改善は、興味深い再構築のための強化されたベースラインを提供する、トークン単位のバイアスを導入することで達成される。その結果、より興味深い特徴とスパース体制の再構築が得られた。

関連論文リスト

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Evaluating Sparse Autoencoders: From Shallow Design to Matching Pursuit [16.996218963146788]
スパースオートエンコーダ(SAE)は近年,解釈可能性の中心的なツールとなっている。本稿では,MNISTを用いた制御環境でのSAEの評価を行う。我々は、MP-SAE(Matching Pursuit)をアンロールすることで、マルチイテレーションSAEを導入する。
論文参考訳（メタデータ） (2025-06-05T16:57:58Z)
Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文参考訳（メタデータ） (2025-05-21T23:31:21Z)
Empirical Evaluation of Progressive Coding for Sparse Autoencoders [45.94517951918044]
バニラSAEにおける辞書の重要性は権力法に従っていることを示す。 SAEは再建損失が低く,言語モデリング損失が回復したことを示す。
論文参考訳（メタデータ） (2025-04-30T21:08:32Z)
Revisiting End-To-End Sparse Autoencoder Training: A Short Finetune Is All You Need [0.0]
スパースオートエンコーダ(SAE)は言語モデルのアクティベーションの解釈に広く用いられている。最近の研究は、KLの発散とMSEの併用でSAEを直接訓練した。そこで本研究では,最後の25Mトレーニングトークンにのみ適用可能なKL+MSEファインタニングステップを提案する。
論文参考訳（メタデータ） (2025-03-21T16:15:49Z)
Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。 textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文参考訳（メタデータ） (2024-11-02T11:42:23Z)
Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文参考訳（メタデータ） (2024-10-15T01:38:03Z)
Rethinking Pruning Large Language Models: Benefits and Pitfalls of Reconstruction Error Minimization [18.24882084542254]
本稿では,この誤差を90%以上削減する再構成手法を提案する。キャリブレーションデータを自己生成する戦略は、再構築と一般化のトレードオフを軽減することができる。
論文参考訳（メタデータ） (2024-06-21T05:13:34Z)
Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文参考訳（メタデータ） (2023-12-30T17:05:31Z)
REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文参考訳（メタデータ） (2023-11-01T13:44:45Z)
Understanding Augmentation-based Self-Supervised Representation Learning via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文参考訳（メタデータ） (2023-06-01T15:18:55Z)
Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文参考訳（メタデータ） (2023-05-28T06:30:29Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文参考訳（メタデータ） (2022-10-04T04:01:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。