論文の概要: MetaSAEs: Joint Training with a Decomposability Penalty Produces More Atomic Sparse Autoencoder Latents
- arxiv url: http://arxiv.org/abs/2604.03436v1
- Date: Fri, 03 Apr 2026 20:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.577302
- Title: MetaSAEs: Joint Training with a Decomposability Penalty Produces More Atomic Sparse Autoencoder Latents
- Title(参考訳): MetaSAEs: Decomposability Penaltyとの共同トレーニングにより、よりアトミックなスパースオートエンコーダを生産する
- Authors: Matthew Levinson,
- Abstract要約: スパースオートエンコーダ (SAE) はアライメント検出やモデルステアリングなどの安全関連アプリケーションにますます利用されている。
実際には、SAEラテントは表現部分空間をブレンドする。
単一の機能は、真の共通表現を共有しない意味的に異なるコンテキストをまたいでアクティベートすることができる。
我々は,この部分空間ブレンディングを直接ペナルティ化する共同学習目標を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sparse autoencoders (SAEs) are increasingly used for safety-relevant applications including alignment detection and model steering. These use cases require SAE latents to be as atomic as possible. Each latent should represent a single coherent concept drawn from a single underlying representational subspace. In practice, SAE latents blend representational subspaces together. A single feature can activate across semantically distinct contexts that share no true common representation, muddying an already complex picture of model computation. We introduce a joint training objective that directly penalizes this subspace blending. A small meta SAE is trained alongside the primary SAE to sparsely reconstruct the primary SAE's decoder columns; the primary SAE is penalized whenever its decoder directions are easy to reconstruct from the meta dictionary. This occurs whenever latent directions lie in a subspace spanned by other primary directions. This creates gradient pressure toward more mutually independent decoder directions that resist sparse meta-compression. On GPT-2 large (layer 20), the selected configuration reduces mean $|\varphi|$ by 7.5% relative to an identical solo SAE trained on the same data. Automated interpretability (fuzzing) scores improve by 7.6%, providing external validation of the atomicity gain independent of the training and co-occurrence metrics. Reconstruction overhead is modest. Results on Gemma 2 9B are directional. On not-fully-converged SAEs, the same parameterization yields the best results, a $+8.6\%$ $Δ$Fuzz. Though directional, this is an encouraging sign that the method transfers to a larger model. Qualitative analysis confirms that features firing on polysemantic tokens are split into semantically distinct sub-features, each specializing in a distinct representational subspace.
- Abstract(参考訳): スパースオートエンコーダ (SAE) はアライメント検出やモデルステアリングなどの安全関連アプリケーションにますます利用されている。
これらのユースケースでは、SAE潜伏剤は可能な限り原子である必要がある。
各ラテントは、単一の基底表現部分空間から引き出された単一のコヒーレントな概念を表現すべきである。
実際には、SAEラテントは表現部分空間をブレンドする。
単一の機能は、真の共通表現を共有しない意味的に異なるコンテキストをまたいでアクティベートすることができ、既に複雑なモデル計算図を泥だらけにする。
我々は,この部分空間ブレンディングを直接ペナルティ化する共同学習目標を導入する。
一次のSAEと共に小さなメタSAEを訓練し、一次のSAEのデコーダ列を緩やかに再構築する。
これは、後続方向が他の一次方向で区切られた部分空間にあるときに起こる。
これにより、スパースメタ圧縮に抵抗するより相互に独立なデコーダ方向への勾配圧力が生じる。
GPT-2大容量(層20)では、選択された構成により、同じデータでトレーニングされた同一のソロSAEと比較して平均$|\varphi|$が7.5%削減される。
自動解釈可能性(ファジィング)スコアは7.6%向上し、トレーニングと共起メトリクスとは独立して原子性の利得を検証する。
レコンストラクションのオーバーヘッドは控えめです。
Gemma 2 9Bの結果は方向性がある。
逆収束SAEでは、同じパラメータ化が最良の結果となり、$+8.6\%$$$Δ$Fuzzとなる。
指向性はあるものの、これはメソッドがより大きなモデルに移行することを奨励する兆候である。
定性的分析により、多意味的トークンを発射する特徴は意味的に異なる部分空間に分割され、それぞれ異なる表現的部分空間に特化している。
関連論文リスト
- Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines? [10.871959954490217]
スパースオートエンコーダ(SAE)は、アクティベーションをスパースセットの人間解釈可能な特徴に分解することで、ニューラルネットワークを解釈するための有望なツールとして登場した。
最近の研究は複数のSAE変異体を導入し、フロンティアモデルへの拡張に成功した。
多くの興奮にもかかわらず、下流タスクにおけるネガティブな結果の増加は、SAEが有意義な特徴を回復するかどうかに疑問を投げかけている。
論文 参考訳(メタデータ) (2026-02-15T11:53:55Z) - Sparse Semantic Dimension as a Generalization Certificate for LLMs [53.681678236115836]
Sparse Semantic Dimension (SSD)は,モデル層上で訓練されたSparse Autoencoder (SAE)のアクティブな特徴語彙から導かれる複雑性尺度である。
我々はGPT-2 Small と Gemma-2B でこの枠組みを検証し、実際のサンプルサイズで非空き証明書を提供することを実証した。
論文 参考訳(メタデータ) (2026-02-11T21:45:18Z) - What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - AbsTopK: Rethinking Sparse Autoencoders For Bidirectional Features [19.58274892471746]
スパースオートエンコーダ(SAE)は,大規模言語モデルの解釈可能性向上のための強力な技術として登場した。
スパース符号の近位勾配法をアンロールすることで,そのような枠組みを導入する。
シングルステップ更新は、ReLU、JumpReLU、TopKを含む一般的なSAEの変種を自然に回復することを示す。
論文 参考訳(メタデータ) (2025-10-01T01:29:31Z) - Sparse Autoencoders Do Not Find Canonical Units of Analysis [6.0188420022822955]
機械的解釈可能性の一般的な目標は、ニューラルネットワークの活性化を機能に分解することである。
スパースオートエンコーダ(SAE)はこれらの特徴を見つけるための一般的な方法である。
SAE縫合は不完全であることを示すもので、メタSAEは原子ではないことを示すものである。
論文 参考訳(メタデータ) (2025-02-07T12:33:08Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-07-18T12:35:46Z) - Symmetric Equilibrium Learning of VAEs [56.56929742714685]
可変オートエンコーダ(VAE)をデコーダ-エンコーダペアとみなし,データ空間内の分布を潜在空間内の分布にマッピングする。
本研究では,エンコーダとデコーダに対して対称なナッシュ均衡学習手法を提案し,データと潜伏分布の両方がサンプリングによってのみアクセス可能な状況下でのVAEの学習を可能にする。
論文 参考訳(メタデータ) (2023-07-19T10:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。