論文の概要: Revisiting End-To-End Sparse Autoencoder Training: A Short Finetune Is All You Need
- arxiv url: http://arxiv.org/abs/2503.17272v2
- Date: Sat, 29 Mar 2025 17:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 15:20:32.611563
- Title: Revisiting End-To-End Sparse Autoencoder Training: A Short Finetune Is All You Need
- Title(参考訳): エンド・ツー・エンドのスパース・オートエンコーダのトレーニングを振り返る:ショート・ファインチューン
- Authors: Adam Karvonen,
- Abstract要約: スパースオートエンコーダ(SAE)は言語モデルのアクティベーションの解釈に広く用いられている。
最近の研究は、KLの発散とMSEの併用でSAEを直接訓練した。
そこで本研究では,最後の25Mトレーニングトークンにのみ適用可能なKL+MSEファインタニングステップを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are widely used for interpreting language model activations. A key evaluation metric is the increase in cross-entropy loss between the original model logits and the reconstructed model logits when replacing model activations with SAE reconstructions. Typically, SAEs are trained solely on mean squared error (MSE) when reconstructing precomputed, shuffled activations. Recent work introduced training SAEs directly with a combination of KL divergence and MSE ("end-to-end" SAEs), significantly improving reconstruction accuracy at the cost of substantially increased computation, which has limited their widespread adoption. We propose a brief KL+MSE fine-tuning step applied only to the final 25M training tokens (just a few percent of typical training budgets) that achieves comparable improvements, reducing the cross-entropy loss gap by 20-50%, while incurring minimal additional computational cost. We further find that multiple fine-tuning methods (KL fine-tuning, LoRA adapters, linear adapters) yield similar, non-additive cross-entropy improvements, suggesting a common, easily correctable error source in MSE-trained SAEs. We demonstrate a straightforward method for effectively transferring hyperparameters and sparsity penalties between training phases despite scale differences between KL and MSE losses. While both ReLU and TopK SAEs see significant cross-entropy loss improvements, evaluations on supervised SAEBench metrics yield mixed results, with improvements on some metrics and decreases on others, depending on both the SAE architecture and downstream task. Nonetheless, our method may offer meaningful improvements in interpretability applications such as circuit analysis with minor additional cost.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は言語モデルのアクティベーションの解釈に広く用いられている。
重要な評価基準は、モデルアクティベーションをSAE再構成に置き換える際に、元のモデルロジットと再構成されたモデルロジットの間のクロスエントロピー損失の増加である。
通常、SAEは事前計算されたシャッフルされたアクティベーションを再構築する際に平均二乗誤差(MSE)のみに基づいて訓練される。
最近の研究は、KLの発散とMSE("end-to-end" SAE)の併用で直接SAEを訓練し、大幅に計算量を増やしたコストで再構成精度を大幅に向上させ、広く採用されることを制限した。
そこで本研究では,25Mのトレーニングトークン(通常のトレーニング予算のわずか数パーセント)にのみ適用可能な,短時間のKL+MSE微調整ステップを提案する。
さらに,複数の微調整手法 (KLファインチューニング, LoRAアダプタ, リニアアダプタ) が類似した非付加的クロスエントロピー改善を実現し,MSE訓練されたSAEの一般的な誤り源が示唆された。
我々は,KLとMSEの損失のスケール差に拘わらず,トレーニングフェーズ間で過度パラメータと疎度ペナルティを効果的に転送する方法を実証した。
ReLUとTopK SAEはどちらも、クロスエントロピー損失の大幅な改善が見られるが、教師付きSAEBenchメトリクスの評価は、SAEアーキテクチャとダウンストリームタスクの両方に依存して、いくつかのメトリクスを改善し、他のメトリクスを減少させる、混合結果をもたらす。
しかしながら,本手法は回路解析などの解釈可能性アプリケーションにおいて,少ない追加コストで有意義な改善をもたらす可能性がある。
関連論文リスト
- Tokenized SAEs: Disentangling SAE Reconstructions [0.9821874476902969]
RES-JB SAEの特徴は, 単純な入力統計値に主に対応していることを示す。
特徴再構成からトークン再構成を分離する手法を提案する。
論文 参考訳(メタデータ) (2025-02-24T17:04:24Z) - Low-Rank Adapting Models for Sparse Autoencoders [6.932760557251821]
我々はローランク適応(LoRA)を使用して、以前訓練されたSAEの周りに言語モデル自体を微調整します。
本手法は,SAEのGemma Scopeファミリーにおける,SAE空間幅,SAE幅,言語モデルサイズ,LoRAランク,モデル層にまたがって解析を行う。
論文 参考訳(メタデータ) (2025-01-31T18:59:16Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - CR-SAM: Curvature Regularized Sharpness-Aware Minimization [8.248964912483912]
Sharpness-Aware Minimization (SAM) は,1段階の勾配上昇を近似として,最悪のケース損失を最小限に抑え,一般化性を高めることを目的としている。
本稿では,トレーニングとテストセットの両面における損失景観の曲率を正確に測定する正規化ヘッセントレースを提案する。
特に、損失景観の過度な非線形性に対抗するために、曲率正規化SAM(CR-SAM)を提案する。
論文 参考訳(メタデータ) (2023-12-21T03:46:29Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - SAFE: Machine Unlearning With Shard Graphs [100.12621304361288]
本稿では,大規模モデルを多種多様なデータ集合に適応させる手法であるSynergy Aware Forgetting Ensemble (SAFE)を提案する。
SAFEは軽量なアダプタシステムを使用し、ほとんどの計算を再利用しながらトレーニングすることができる。
これにより、SAFEは現在の最先端の方法よりも小さなシャードの順序でトレーニングすることができる。
論文 参考訳(メタデータ) (2023-04-25T22:02:09Z) - A Simple Adaptive Unfolding Network for Hyperspectral Image
Reconstruction [33.53825801739728]
ネットワーク設計をシンプルにするために,シンプルで効率的でスケーラブルな展開ネットワークSAUNetを提案する。
SAUNetは、継続的改善を伴う非自明な13ステージにスケールすることができる。
我々はCAVEとKAIST HSI再構成ベンチマークに新しい記録を設定した。
論文 参考訳(メタデータ) (2023-01-24T18:28:21Z) - Sharpness-Aware Training for Free [163.1248341911413]
シャープネスを意識した最小化(SAM)は、損失ランドスケープの幾何学を反映したシャープネス尺度の最小化が一般化誤差を著しく減少させることを示した。
シャープネス・アウェア・トレーニング・フリー(SAF)は、シャープランドスケープをベース上でほぼゼロの計算コストで軽減する。
SAFは、改善された能力で最小限の平らな収束を保証する。
論文 参考訳(メタデータ) (2022-05-27T16:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。