論文の概要: Training Superior Sparse Autoencoders for Instruct Models
- arxiv url: http://arxiv.org/abs/2506.07691v1
- Date: Mon, 09 Jun 2025 12:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.943151
- Title: Training Superior Sparse Autoencoders for Instruct Models
- Title(参考訳): インストラクションモデルのための上位スパースオートエンコーダの訓練
- Authors: Jiaming Li, Haoran Ye, Yukun Chen, Xinyue Li, Lei Zhang, Hamid Alinejad-Rokny, Jimmy Chih-Hsien Peng, Min Yang,
- Abstract要約: そこで本研究では,インストラクションモデルに適した新しいトレーニング手法を提案する。
$textitFAST$は、トレーニングプロセスとインストラクションモデルの特徴的なデータ分散とアクティベーションパターンを調整します。
機能解釈可能性において、$textitFAST$は、Llama3.2-3B-Instructでは、$textitBT(P)$と$textitBT(F)$に対して$7.0%$と$10.2%$に対して、最高値で21.1%$である。
- 参考スコア(独自算出の注目度): 16.3663776969074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) grow in scale and capability, understanding their internal mechanisms becomes increasingly critical. Sparse autoencoders (SAEs) have emerged as a key tool in mechanistic interpretability, enabling the extraction of human-interpretable features from LLMs. However, existing SAE training methods are primarily designed for base models, resulting in reduced reconstruction quality and interpretability when applied to instruct models. To bridge this gap, we propose $\underline{\textbf{F}}$inetuning-$\underline{\textbf{a}}$ligned $\underline{\textbf{S}}$equential $\underline{\textbf{T}}$raining ($\textit{FAST}$), a novel training method specifically tailored for instruct models. $\textit{FAST}$ aligns the training process with the data distribution and activation patterns characteristic of instruct models, resulting in substantial improvements in both reconstruction and feature interpretability. On Qwen2.5-7B-Instruct, $\textit{FAST}$ achieves a mean squared error of 0.6468 in token reconstruction, significantly outperforming baseline methods with errors of 5.1985 and 1.5096. In feature interpretability, $\textit{FAST}$ yields a higher proportion of high-quality features, for Llama3.2-3B-Instruct, $21.1\%$ scored in the top range, compared to $7.0\%$ and $10.2\%$ for $\textit{BT(P)}$ and $\textit{BT(F)}$. Surprisingly, we discover that intervening on the activations of special tokens via the SAEs leads to improvements in output quality, suggesting new opportunities for fine-grained control of model behavior. Code, data, and 240 trained SAEs are available at https://github.com/Geaming2002/FAST.
- Abstract(参考訳): 大規模言語モデル(LLM)の規模と能力が拡大するにつれ、その内部メカニズムの理解がますます重要になる。
スパースオートエンコーダ (SAE) は機械的解釈可能性の鍵となるツールとして登場し、LLMから人間の解釈可能な特徴の抽出を可能にしている。
しかし、既存のSAEトレーニング手法は主にベースモデル用に設計されており、結果として再構築品質が低下し、インストラクションモデルに適用した場合の解釈可能性も低下する。
このギャップを埋めるために、我々は$\underline{\textbf{F}}$inetuning-$\underline{\textbf{a}}$ligned $\underline{\textbf{S}}$equential $\underline{\textbf{T}}$raining$\textit{FAST}$という新しいトレーニング手法を提案する。
$\textit{FAST}$は、トレーニングプロセスとインストラクションモデルの特徴的なデータ分散とアクティベーションパターンを整合させる。
Qwen2.5-7B-Instructでは、$\textit{FAST}$ はトークン再構成における平均2乗誤差 0.6468 を達成する。
機能解釈可能性において、$\textit{FAST}$は、Llama3.2-3B-インストラクタで21.1\%$を、$7.0\%$と$10.2\%$で$\textit{BT(P)}$と$\textit{BT(F)}$と比較すると、より高い品質の機能を得られる。
驚くべきことに、SAEによる特別なトークンの活性化に介入することで、出力品質が向上し、モデル動作をきめ細かい制御する新たな機会が示唆される。
コード、データ、240のトレーニングされたSAEはhttps://github.com/Geaming2002/FASTで入手できる。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Aligning Large Language Models via Self-Steering Optimization [78.42826116686435]
本稿では,高品質な選好信号を自律的に生成するアルゴリズムであるSelf-Steering Optimization(SSO$)を紹介する。
SSO$は、選択された応答と拒否された応答の間に一貫したギャップを確保することで、信号の精度を維持する。
我々は、Qwen2とLlama3.1という2つの基礎モデルを用いて、$SSO$の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models [22.425339110551743]
我々は,テストタイムの欲求検索として,大規模言語モデルのアライメントをフレーミングする,$textitweak-to-strong検索を導入する。
制御された知覚生成と要約では、チューニングされていない$textttgpt2$sを使用して、追加のトレーニングなしで大規模モデルのアライメントを改善する。
より難しい命令追従ベンチマークでは、市販の小型モデルの再利用により、ホワイトボックスモデルとブラックボックスモデルの両方の長制御された勝利率を改善することが示されている。
論文 参考訳(メタデータ) (2024-05-29T16:55:32Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - CLAWSAT: Towards Both Robust and Accurate Code Models [74.57590254102311]
比較学習(CL)と逆学習を統合して、コードモデルの堅牢性と精度を協調的に最適化する。
私たちの知る限りでは、これはコードモデルにおける(マルチビュー)コードの難読化の堅牢性と正確性について調査し、活用する最初の体系的な研究です。
論文 参考訳(メタデータ) (2022-11-21T18:32:50Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。