論文の概要: Train One Sparse Autoencoder Across Multiple Sparsity Budgets to Preserve Interpretability and Accuracy
- arxiv url: http://arxiv.org/abs/2505.24473v1
- Date: Fri, 30 May 2025 11:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.920162
- Title: Train One Sparse Autoencoder Across Multiple Sparsity Budgets to Preserve Interpretability and Accuracy
- Title(参考訳): 解釈可能性と正確性を維持するために複数の疎水性予算にまたがる列車一括オートエンコーダ
- Authors: Nikita Balagansky, Yaroslav Aksenov, Daniil Laptev, Vadim Kurochkin, Gleb Gerasimov, Nikita Koryagin, Daniil Gavrilov,
- Abstract要約: 我々は,複数の空間レベルにわたる再建を同時に最適化するために,単一のSAEを訓練する新しいトレーニング目標であるemphHierarchicalTopKを導入する。
実験の結果,HierarchicalTopKは高頻度でも高い解釈可能性スコアを保っていることがわかった。
- 参考スコア(独自算出の注目度): 3.2248482136498433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have proven to be powerful tools for interpreting neural networks by decomposing hidden representations into disentangled, interpretable features via sparsity constraints. However, conventional SAEs are constrained by the fixed sparsity level chosen during training; meeting different sparsity requirements therefore demands separate models and increases the computational footprint during both training and evaluation. We introduce a novel training objective, \emph{HierarchicalTopK}, which trains a single SAE to optimise reconstructions across multiple sparsity levels simultaneously. Experiments with Gemma-2 2B demonstrate that our approach achieves Pareto-optimal trade-offs between sparsity and explained variance, outperforming traditional SAEs trained at individual sparsity levels. Further analysis shows that HierarchicalTopK preserves high interpretability scores even at higher sparsity. The proposed objective thus closes an important gap between flexibility and interpretability in SAE design.
- Abstract(参考訳): スパースオートエンコーダ(SAEs)は、隠された表現をスペーサ性制約によって非絡み合った解釈可能な特徴に分解することで、ニューラルネットワークを解釈するための強力なツールであることが証明されている。
しかし、従来のSAEは、トレーニング中に選択された一定間隔レベルによって制約されるため、異なる間隔要件を満たすには、異なるモデルが必要であり、トレーニングと評価の両方において計算フットプリントを増加させる。
我々は,複数の空間レベルにわたる再構築を同時に最適化するために,単一のSAEをトレーニングする新たなトレーニング目標である \emph{HierarchicalTopK} を導入する。
Gemma-2 2B を用いた実験により,提案手法は空間性と説明された分散のパレート最適トレードオフを達成し,個々の空間レベルで訓練された従来のSAEよりも優れていた。
さらに解析したところ、HierarchicalTopKは高頻度でも高い解釈可能性スコアを保っていることがわかった。
提案手法は,SAE設計における柔軟性と解釈可能性の間に重要なギャップを埋めるものである。
関連論文リスト
- Interpreting CLIP with Hierarchical Sparse Autoencoders [8.692675181549117]
サエマトリオシュカ(MSAE)は複数の粒度の階層的表現を同時に学習する。
MSAEは、CLIPの再構築品質とスパーシリティの間に新しい最先端のフロンティアを確立する。
論文 参考訳(メタデータ) (2025-02-27T22:39:13Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - Layer-wise Regularized Adversarial Training using Layers Sustainability
Analysis (LSA) framework [8.701566919381223]
敵の攻撃に対する適切な解決策は、堅牢性と一般化の間のトレードオフに達する敵の訓練である。
本稿では,ニューラルネットワークの層脆弱性を敵攻撃のシナリオで解析するための新しいフレームワーク (Layer Sustainability Analysis) を提案する。
提案したアイデアは、最先端の多層パーセプトロンと畳み込みニューラルネットワークアーキテクチャに対して、理論上、実験的によく機能する。
論文 参考訳(メタデータ) (2022-02-05T20:05:53Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。