論文の概要: Low-Rank Adapting Models for Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2501.19406v1
- Date: Fri, 31 Jan 2025 18:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:02.315641
- Title: Low-Rank Adapting Models for Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダの低ランク適応モデル
- Authors: Matthew Chen, Joshua Engels, Max Tegmark,
- Abstract要約: 我々はローランク適応(LoRA)を使用して、以前訓練されたSAEの周りに言語モデル自体を微調整します。
本手法は,SAEのGemma Scopeファミリーにおける,SAE空間幅,SAE幅,言語モデルサイズ,LoRAランク,モデル層にまたがって解析を行う。
- 参考スコア(独自算出の注目度): 6.932760557251821
- License:
- Abstract: Sparse autoencoders (SAEs) decompose language model representations into a sparse set of linear latent vectors. Recent works have improved SAEs using language model gradients, but these techniques require many expensive backward passes during training and still cause a significant increase in cross entropy loss when SAE reconstructions are inserted into the model. In this work, we improve on these limitations by taking a fundamentally different approach: we use low-rank adaptation (LoRA) to finetune the language model itself around a previously trained SAE. We analyze our method across SAE sparsity, SAE width, language model size, LoRA rank, and model layer on the Gemma Scope family of SAEs. In these settings, our method reduces the cross entropy loss gap by 30% to 55% when SAEs are inserted during the forward pass. We also find that compared to end-to-end (e2e) SAEs, our approach achieves the same downstream cross entropy loss 3$\times$ to 20$\times$ faster on Gemma-2-2B and 2$\times$ to 10$\times$ faster on Llama-3.2-1B. We further show that our technique improves downstream metrics and can adapt multiple SAEs at once. Our results demonstrate that improving model interpretability is not limited to post-hoc SAE training; Pareto improvements can also be achieved by directly optimizing the model itself.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、言語モデル表現を線形潜在ベクトルのスパース集合に分解する。
最近の研究は言語モデル勾配を用いてSAEを改良しているが、これらの技術は訓練中に多くの高価な後方通過を必要とし、SAE再建がモデルに挿入される際にはクロスエントロピー損失が著しく増加する。
我々はローランク適応(LoRA)を用いて、以前訓練されたSAEの周辺で言語モデル自体を微調整する。
本手法は,SAEのGemma Scopeファミリーにおける,SAE空間幅,SAE幅,言語モデルサイズ,LoRAランク,モデル層にまたがって解析を行う。
これらの設定では, 前方通過時にSAEを挿入した場合, クロスエントロピー損失ギャップを30%から55%削減する。
また, エンド・ツー・エンド(e2e)のSAEと比較して, Llama-3.2-1Bでは3$\times$から20$\times$高速, 2$\times$から10$\times$高速であることがわかった。
さらに、我々の技術は下流のメトリクスを改善し、複数のSAEを同時に適用できることを示します。
この結果から,モデル解釈性の向上はポストホックSAEトレーニングに限らず,モデル自体を直接最適化することでパレートの改善も達成できることがわかった。
関連論文リスト
- Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Efficient Training of Sparse Autoencoders for Large Language Models via Layer Groups [0.0]
本研究では,各層ごとにトレーニングされたSAEの数を,各層ごとに1つに減らした新たなトレーニング戦略を提案する。
Pythia 160Mの実験結果から,下流タスクの再現性や性能を損なうことなく,最大6倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-10-28T20:23:30Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。