論文の概要: FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies
- arxiv url: http://arxiv.org/abs/2506.17673v1
- Date: Sat, 21 Jun 2025 10:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.535349
- Title: FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies
- Title(参考訳): FaithfulSAE: 外部データセットに依存しないスパースオートエンコーダによる忠実な特徴のキャプチャを目指して
- Authors: Seonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed,
- Abstract要約: 本稿では,モデル自身の合成データセット上でSAEを学習するFithfulSAEを提案する。
より低OOD命令データセット上でのSAEのトレーニングにより,SAEの種子間安定性が向上することが実証された。
- 参考スコア(独自算出の注目度): 3.709351921096894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have emerged as a promising solution for decomposing large language model representations into interpretable features. However, Paulo and Belrose (2025) have highlighted instability across different initialization seeds, and Heap et al. (2025) have pointed out that SAEs may not capture model-internal features. These problems likely stem from training SAEs on external datasets - either collected from the Web or generated by another model - which may contain out-of-distribution (OOD) data beyond the model's generalisation capabilities. This can result in hallucinated SAE features, which we term "Fake Features", that misrepresent the model's internal activations. To address these issues, we propose FaithfulSAE, a method that trains SAEs on the model's own synthetic dataset. Using FaithfulSAEs, we demonstrate that training SAEs on less-OOD instruction datasets results in SAEs being more stable across seeds. Notably, FaithfulSAEs outperform SAEs trained on web-based datasets in the SAE probing task and exhibit a lower Fake Feature Ratio in 5 out of 7 models. Overall, our approach eliminates the dependency on external datasets, advancing interpretability by better capturing model-internal features while highlighting the often neglected importance of SAE training datasets.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は,大規模言語モデル表現を解釈可能な機能に分解するための,有望なソリューションとして登場した。
しかし、Paulo と Belrose (2025) は、異なる初期化種子の不安定性を強調しており、Heap et al (2025) は、SAEがモデル内部の特徴を捉えていないことを指摘している。
これらの問題は、外部データセット(Webから収集したものか、他のモデルによって生成されたもの)でSAEをトレーニングすることに由来する可能性が高い。
これは、モデルの内部アクティベーションを誤って表現する「フェイク特徴」と呼ばれる、幻覚的なSAE特徴をもたらす可能性がある。
これらの問題に対処するために、モデル独自の合成データセット上でSAEをトレーニングするFithfulSAEを提案する。
FaithfulSAEsを用いて、低OOD命令データセット上でのSAEのトレーニングにより、SAEは種子間でより安定であることを示す。
特に、FaithfulSAEsは、SAE探索タスクでWebベースのデータセットでトレーニングされたSAEを上回り、7つのモデルのうち5つでFake Feature Ratioが低い。
全体として、当社のアプローチは外部データセットへの依存を排除し、モデル内部の特徴をよりよく捉えながら、SAEトレーニングデータセットの無視される重要性を強調しながら、解釈可能性を向上させる。
関連論文リスト
- Do Sparse Autoencoders Generalize? A Case Study of Answerability [12.131254862319865]
Gemma 2 SAEに対する多様な応答性データセット間のSAE特徴一般化を評価した。
解析の結果,残差ストリームプローブは領域内のSAE特性より優れていることがわかったが,一般化性能は著しく異なる。
論文 参考訳(メタデータ) (2025-02-27T10:45:25Z) - Sparse Autoencoders Trained on the Same Data Learn Different Features [0.7234862895932991]
スパースオートエンコーダ(SAE)は、大きな言語モデルで人間の解釈可能な特徴を明らかにするのに有用なツールである。
我々の研究は、SAEが同じモデルとデータに基づいて訓練したことを示しています。
論文 参考訳(メタデータ) (2025-01-28T01:24:16Z) - Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。
textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文 参考訳(メタデータ) (2024-11-02T11:42:23Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs [47.14410674505256]
マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。
本研究では,特定のトランスフォーマーヘッドが特定の構文的関係に焦点をあてる,アクセシビリティの自然発生特性である構文的注意構造(SAS)について検討する。
学習中にSASを操作することでSASの因果的役割を解明し,SASが文法的能力の発達に必要であることを示す。
論文 参考訳(メタデータ) (2023-09-13T20:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。