論文の概要: Revisiting End To End Sparse Autoencoder Training -- A Short Finetune is All You Need
- arxiv url: http://arxiv.org/abs/2503.17272v1
- Date: Fri, 21 Mar 2025 16:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:57.918005
- Title: Revisiting End To End Sparse Autoencoder Training -- A Short Finetune is All You Need
- Title(参考訳): パースオートエンコーダのトレーニングを終了させる - ショートファインチューン
- Authors: Adam Karvonen,
- Abstract要約: 重要な評価基準は、モデルアクティベーションをSAE再構成に置き換える際のクロスエントロピー損失の増加である。
最近の研究は、KL発散とMSE("end-to-end" SAE)を併用したSAEのトレーニングを導入している。
そこで本稿では,KL+MSEの微調整を最終25Mのトレーニングトークンにのみ適用し,これと同等な改善を実現するための簡単なステップを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sparse autoencoders (SAEs) are widely used for interpreting language model activations. A key evaluation metric is the increase in cross-entropy loss when replacing model activations with SAE reconstructions. Typically, SAEs are trained solely on mean squared error (MSE) using precomputed, shuffled activations. Recent work introduced training SAEs directly with a combination of KL divergence and MSE ("end-to-end" SAEs), significantly improving reconstruction accuracy at the cost of substantially increased computation, which has limited their widespread adoption. We propose a brief KL+MSE fine-tuning step applied only to the final 25M training tokens (just a few percent of typical training budgets) that achieves comparable improvements, reducing the cross-entropy loss gap by 20-50%, while incurring minimal additional computational cost. We further find that multiple fine-tuning methods (KL fine-tuning, LoRA adapters, linear adapters) yield similar, non-additive cross-entropy improvements, suggesting a common, easily correctable error source in MSE-trained SAEs. We demonstrate a straightforward method for effectively transferring hyperparameters and sparsity penalties despite scale differences between KL and MSE losses. While both ReLU and TopK SAEs see significant cross-entropy loss improvements, evaluations on supervised SAEBench metrics yield mixed results, suggesting practical benefits depend on both SAE architecture and the specific downstream task. Nonetheless, our method offers meaningful improvements in interpretability applications such as circuit analysis with minor additional cost.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は言語モデルのアクティベーションの解釈に広く用いられている。
重要な評価基準は、モデルアクティベーションをSAE再構成に置き換える際のクロスエントロピー損失の増加である。
通常、SAEは、事前計算されたシャッフルされたアクティベーションを使用して平均二乗誤差(MSE)のみに基づいて訓練される。
最近の研究は、KLの発散とMSE("end-to-end" SAE)の併用で直接SAEを訓練し、大幅に計算量を増やしたコストで再構成精度を大幅に向上させ、広く採用されることを制限した。
そこで本研究では,25Mのトレーニングトークン(通常のトレーニング予算のわずか数パーセント)にのみ適用可能な,短時間のKL+MSE微調整ステップを提案する。
さらに,複数の微調整手法 (KLファインチューニング, LoRAアダプタ, リニアアダプタ) が類似した非付加的クロスエントロピー改善を実現し,MSE訓練されたSAEの一般的な誤り源が示唆された。
我々は,KLとMSEの損失のスケール差に拘わらず,過度パラメータと疎度ペナルティを効果的に転送する方法を実証した。
ReLUとTopK SAEはどちらも大きなクロスエントロピー損失の改善が見られるが、教師付きSAEBenchメトリクスによる評価は、SAEアーキテクチャと特定の下流タスクの両方に依存する実用的な利点を示唆している。
しかしながら,本手法は回路解析などの解釈可能性アプリケーションにおいて,少ない追加コストで有意義な改善をもたらす。
関連論文リスト
- Low-Rank Adapting Models for Sparse Autoencoders [6.932760557251821]
我々はローランク適応(LoRA)を使用して、以前訓練されたSAEの周りに言語モデル自体を微調整します。
本手法は,SAEのGemma Scopeファミリーにおける,SAE空間幅,SAE幅,言語モデルサイズ,LoRAランク,モデル層にまたがって解析を行う。
論文 参考訳(メタデータ) (2025-01-31T18:59:16Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - SAFT: Towards Out-of-Distribution Generalization in Fine-Tuning [8.566687323389264]
Sparse Adaptation for Fine-Tuning (SAFT) を導入する。これは、ファインチューニングが事前訓練されたモデルにおける一般的な知識を忘れないようにする手法である。
モデルパラメータのわずか0.1%で、SAFTはCLIPの性能を大幅に改善できる。
ImageNetのほんの数ショットの学習ベンチマークで、SAFTはOOD設定における従来の微調整法よりも平均5.15%向上した。
論文 参考訳(メタデータ) (2024-07-03T11:56:55Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z) - Efficient Sharpness-aware Minimization for Improved Training of Neural
Networks [146.2011175973769]
本稿では,SAM s の効率を高コストで向上する高効率シャープネス認識最小化器 (M) を提案する。
Mには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効果的なトレーニング戦略が含まれている。
我々は、CIFARとImageNetデータセットの広範な実験を通して、ESAMはSAMよりも100%余分な計算を40%のvis-a-visベースに必要とせずに効率を向上させることを示した。
論文 参考訳(メタデータ) (2021-10-07T02:20:37Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。