論文の概要: Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2410.20526v1
- Date: Sun, 27 Oct 2024 17:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:17:35.075888
- Title: Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders
- Title(参考訳): Llama Scope: スパースオートエンコーダによるLlama-3.1-8Bの機能抽出
- Authors: Zhengfu He, Wentao Shu, Xuyang Ge, Lingjie Chen, Junxuan Wang, Yunhua Zhou, Frances Liu, Qipeng Guo, Xuanjing Huang, Zuxuan Wu, Yu-Gang Jiang, Xipeng Qiu,
- Abstract要約: スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
- 参考スコア(独自算出の注目度): 115.34050914216665
- License:
- Abstract: Sparse Autoencoders (SAEs) have emerged as a powerful unsupervised method for extracting sparse representations from language models, yet scalable training remains a significant challenge. We introduce a suite of 256 SAEs, trained on each layer and sublayer of the Llama-3.1-8B-Base model, with 32K and 128K features. Modifications to a state-of-the-art SAE variant, Top-K SAEs, are evaluated across multiple dimensions. In particular, we assess the generalizability of SAEs trained on base models to longer contexts and fine-tuned models. Additionally, we analyze the geometry of learned SAE latents, confirming that \emph{feature splitting} enables the discovery of new features. The Llama Scope SAE checkpoints are publicly available at~\url{https://huggingface.co/fnlp/Llama-Scope}, alongside our scalable training, interpretation, and visualization tools at \url{https://github.com/OpenMOSS/Language-Model-SAEs}. These contributions aim to advance the open-source Sparse Autoencoder ecosystem and support mechanistic interpretability research by reducing the need for redundant SAE training.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場したが、スケーラブルなトレーニングは依然として大きな課題である。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
最先端のSAE変種であるTop-K SAEの修正は、複数の次元にわたって評価される。
特に、ベースモデルに基づいて訓練されたSAEのより長いコンテキストや微調整モデルへの一般化性を評価する。
さらに,学習したSAE潜伏剤の形状を解析し,<emph{feature splitting} が新たな特徴の発見を可能にすることを確認する。
Llama Scope SAEチェックポイントは~\url{https://huggingface.co/fnlp/Llama-Scope} で公開されており、スケーラブルなトレーニング、解釈、可視化ツールが \url{https://github.com/OpenMOSS/Language-Model-SAEs} で公開されている。
これらの貢献は、オープンソースのスパースオートエンコーダエコシステムを推進し、冗長なSAEトレーニングの必要性を減らし、機械的解釈可能性の研究を支援することを目的としている。
関連論文リスト
- Sparse Autoencoders Do Not Find Canonical Units of Analysis [6.0188420022822955]
機械的解釈可能性の一般的な目標は、ニューラルネットワークの活性化を機能に分解することである。
スパースオートエンコーダ(SAE)はこれらの特徴を見つけるための一般的な方法である。
SAE縫合は不完全であることを示すもので、メタSAEは原子ではないことを示すものである。
論文 参考訳(メタデータ) (2025-02-07T12:33:08Z) - Low-Rank Adapting Models for Sparse Autoencoders [6.932760557251821]
我々はローランク適応(LoRA)を使用して、以前訓練されたSAEの周りに言語モデル自体を微調整します。
本手法は,SAEのGemma Scopeファミリーにおける,SAE空間幅,SAE幅,言語モデルサイズ,LoRAランク,モデル層にまたがって解析を行う。
論文 参考訳(メタデータ) (2025-01-31T18:59:16Z) - Sparse Autoencoders Trained on the Same Data Learn Different Features [0.7234862895932991]
スパースオートエンコーダ(SAE)は、大きな言語モデルで人間の解釈可能な特徴を明らかにするのに有用なツールである。
我々の研究は、SAEが同じモデルとデータに基づいて訓練したことを示しています。
論文 参考訳(メタデータ) (2025-01-28T01:24:16Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己制限を統合したセルフプレイフレームワークで、気を散らさずに有効かつ同等の選好ペアを得る。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models [18.77400885091398]
本稿では,チェスやオセロ文字で訓練されたLMの設定を用いて,解釈可能な辞書学習の進展を測定することを提案する。
新しいSAEトレーニングテクニックである$textitp-annealing$を導入しました。
論文 参考訳(メタデータ) (2024-07-31T18:45:13Z) - Segment and Caption Anything [126.20201216616137]
本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
論文 参考訳(メタデータ) (2023-12-01T19:00:17Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。