論文の概要: Data Whitening Improves Sparse Autoencoder Learning
- arxiv url: http://arxiv.org/abs/2511.13981v1
- Date: Mon, 17 Nov 2025 23:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.832906
- Title: Data Whitening Improves Sparse Autoencoder Learning
- Title(参考訳): データホワイトニングはスパースオートエンコーダ学習を改善する
- Authors: Ashwin Saraswatula, David Klindt,
- Abstract要約: 入力アクティベーションにPCAホワイトニングを適用することで、複数のメトリクスにわたるSAE性能が向上することを示す。
我々はReLUとTop-K SAEを多種多様なモデルアーキテクチャ、幅、空間的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoders (SAEs) have emerged as a promising approach for learning interpretable features from neural network activations. However, the optimization landscape for SAE training can be challenging due to correlations in the input data. We demonstrate that applying PCA Whitening to input activations -- a standard preprocessing technique in classical sparse coding -- improves SAE performance across multiple metrics. Through theoretical analysis and simulation, we show that whitening transforms the optimization landscape, making it more convex and easier to navigate. We evaluate both ReLU and Top-K SAEs across diverse model architectures, widths, and sparsity regimes. Empirical evaluation on SAEBench, a comprehensive benchmark for sparse autoencoders, reveals that whitening consistently improves interpretability metrics, including sparse probing accuracy and feature disentanglement, despite minor drops in reconstruction quality. Our results challenge the assumption that interpretability aligns with an optimal sparsity--fidelity trade-off and suggest that whitening should be considered as a default preprocessing step for SAE training, particularly when interpretability is prioritized over perfect reconstruction.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションから解釈可能な特徴を学ぶための有望なアプローチとして登場した。
しかし、SAEトレーニングの最適化環境は、入力データに相関があるため困難である。
古典的スパース符号化における標準前処理技術である入力アクティベーションにPCAホワイトニングを適用することで、複数のメトリクスにわたるSAE性能が向上することを示す。
理論的解析とシミュレーションにより、ホワイトニングは最適化のランドスケープを変換し、より凸的でナビゲートが容易になることを示す。
我々はReLUとTop-K SAEを多種多様なモデルアーキテクチャ、幅、空間的に評価する。
スパースオートエンコーダの総合的なベンチマークであるSAEBenchに関する実証的な評価によると、ホワイトニングは、復元品質がわずかに低下しているにもかかわらず、スパースプローブの精度や特徴のゆがみなど、解釈可能性の指標を一貫して改善する。
本研究の結果は,解釈可能性が最適間隔のトレードオフと一致しているという仮定に挑戦し,特に完全再構築よりも解釈可能性が優先される場合には,白化をSAEトレーニングの既定前処理ステップとして考えるべきであることを示唆している。
関連論文リスト
- Analysis of Variational Sparse Autoencoders [1.675385127117872]
SAEアーキテクチャに変分手法を組み込むことで,特徴構造や解釈可能性が改善されるかどうかを検討する。
本稿では,変分スパースオートエンコーダ(vSAE)を導入し,決定論的ReLUゲーティングを学習したガウス後部からのサンプリングに置き換える。
以上の結果から,SAEに対する変分法の適用は,機能的構造や解釈可能性の向上には至らないことが示唆された。
論文 参考訳(メタデータ) (2025-09-26T23:09:56Z) - TopoSizing: An LLM-aided Framework of Topology-based Understanding and Sizing for AMS Circuits [7.615431299673158]
従来のブラックボックス最適化はサンプリング効率を実現するが、回路理解に欠ける。
提案するTopoSizeは、生のネットリストから直接、堅牢な回路理解を行うエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-09-17T16:52:46Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Provable Optimization for Adversarial Fair Self-supervised Contrastive Learning [49.417414031031264]
本稿では,自己教師型学習環境におけるフェアエンコーダの学習について検討する。
すべてのデータはラベル付けされておらず、そのごく一部だけが機密属性で注釈付けされている。
論文 参考訳(メタデータ) (2024-06-09T08:11:12Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Improving Self-Supervised Learning by Characterizing Idealized
Representations [155.1457170539049]
与えられたデータ拡張に不変なタスクに対して必要かつ十分な条件を証明します。
対照的に、我々のフレームワークは、従来の手法に対して単純だが重要な改善を規定している。
非コントラスト学習では、私たちのフレームワークを使って、シンプルで斬新な目的を導き出します。
論文 参考訳(メタデータ) (2022-09-13T18:01:03Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。