論文の概要: SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability
- arxiv url: http://arxiv.org/abs/2503.09532v2
- Date: Thu, 13 Mar 2025 03:18:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 12:09:31.937192
- Title: SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability
- Title(参考訳): SAEBench: 言語モデル解釈可能性におけるスパースオートエンコーダの総合ベンチマーク
- Authors: Adam Karvonen, Can Rager, Johnny Lin, Curt Tigges, Joseph Bloom, David Chanin, Yeu-Tong Lau, Eoin Farrell, Callum McDougall, Kola Ayonrinde, Matthew Wearden, Arthur Conmy, Samuel Marks, Neel Nanda,
- Abstract要約: SAEBenchは7つのメトリクスにわたるSAEパフォーマンスを測定する総合的な評価スイートである。
最近提案された8つのSAEアーキテクチャとトレーニングアルゴリズムをまたいだ200以上のSAEスイートをオープンソースにしています。
評価の結果,プロキシメトリクスのゲインは,実用的なパフォーマンスに確実に変換されないことがわかった。
- 参考スコア(独自算出の注目度): 2.502685641292941
- License:
- Abstract: Sparse autoencoders (SAEs) are a popular technique for interpreting language model activations, and there is extensive recent work on improving SAE effectiveness. However, most prior work evaluates progress using unsupervised proxy metrics with unclear practical relevance. We introduce SAEBench, a comprehensive evaluation suite that measures SAE performance across seven diverse metrics, spanning interpretability, feature disentanglement and practical applications like unlearning. To enable systematic comparison, we open-source a suite of over 200 SAEs across eight recently proposed SAE architectures and training algorithms. Our evaluation reveals that gains on proxy metrics do not reliably translate to better practical performance. For instance, while Matryoshka SAEs slightly underperform on existing proxy metrics, they substantially outperform other architectures on feature disentanglement metrics; moreover, this advantage grows with SAE scale. By providing a standardized framework for measuring progress in SAE development, SAEBench enables researchers to study scaling trends and make nuanced comparisons between different SAE architectures and training methodologies. Our interactive interface enables researchers to flexibly visualize relationships between metrics across hundreds of open-source SAEs at: https://saebench.xyz
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、言語モデルのアクティベーションを解釈するための一般的な手法であり、SAEの有効性を改善するための大規模な研究が行われている。
しかし、ほとんどの先行研究は、教師なしのプロキシメトリクスを使用して進捗を評価する。
SAEBenchは7つのメトリクス(解釈可能性、機能障害、アンラーニングのような実践的な応用)にわたるSAAEパフォーマンスを測定する総合的な評価スイートである。
体系的な比較を可能にするため,最近提案された8つのSAEアーキテクチャとトレーニングアルゴリズムに対して,200以上のSAEスイートをオープンソース化した。
評価の結果,プロキシメトリクスのゲインは,実用的なパフォーマンスに確実に変換されないことがわかった。
例えば、Matryoshka SAEは、既存のプロキシメトリクスではわずかにパフォーマンスが劣っているが、機能障害メトリクスでは、他のアーキテクチャよりも大幅に上回っている。
SAEBenchは、SAE開発の進捗を測定するための標準化されたフレームワークを提供することによって、研究者がスケーリングトレンドを研究し、異なるSAEアーキテクチャとトレーニング方法論の微妙な比較を行うことを可能にする。
私たちのインタラクティブインターフェースは、研究者が数百のオープンソースSAEでメトリクス間の関係を柔軟に可視化することを可能にする。
関連論文リスト
- Sparse Autoencoder Features for Classifications and Transferability [11.2185030332009]
大規模言語モデル(LLM)からの特徴抽出のためのスパースオートエンコーダ(SAE)の解析
本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。
論文 参考訳(メタデータ) (2025-02-17T02:30:45Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - A Top-down Graph-based Tool for Modeling Classical Semantic Maps: A Crosslinguistic Case Study of Supplementary Adverbs [50.982315553104975]
セマンティックマップモデル(SMM)は、言語横断的なインスタンスや形式からネットワークのような概念空間を構築する。
ほとんどのSMMは、ボトムアップ手順を使用して、人間の専門家によって手動で構築される。
本稿では,概念空間とSMMをトップダウンで自動生成するグラフベースの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:06:41Z) - Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks [1.4565166775409717]
スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを解釈可能な単位に分解することを目的とした解釈可能性技術である。
我々は,マークスらによる下流作業である ShiFT に基づく評価のファミリを紹介する。
我々は ShiFT をSAE 品質の自動測定基準に適合させ,人間のアノテーションを LLM に置き換える。
また、SAEが同様の概念を解き放つ能力を定量化するTPP(Targeted Probe Perturbation)指標も導入する。
論文 参考訳(メタデータ) (2024-11-28T03:58:48Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Efficient Dictionary Learning with Switch Sparse Autoencoders [8.577217344304072]
本稿では,SAEのトレーニングコスト削減を目的とした新しいSAEアーキテクチャであるSwitch Sparse Autoencodersを紹介する。
専門家モデルのまばらな混合にインスパイアされたSAEは、より小さな「専門家」SAE間での経路活性化ベクトルを切り替える。
この結果,Switch SAEは,所定のトレーニング計算予算に対して,再構成と疎性フロンティアの大幅な改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-10-10T17:59:11Z) - Generative Language Models with Retrieval Augmented Generation for Automated Short Answer Scoring [11.537413936317385]
自動短解答(ASAS)は教育評価において重要な要素である。
ジェネレーティブ言語モデル(GLM)の最近の進歩は、改善のための新たな機会を提供する。
本稿では, ベクトルデータベース, トランスフォーマーベースエンコーダ, GLMを組み合わせ, 短時間応答スコアリング精度を向上させるパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:42:13Z) - Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models [18.77400885091398]
本稿では,チェスやオセロ文字で訓練されたLMの設定を用いて,解釈可能な辞書学習の進展を測定することを提案する。
新しいSAEトレーニングテクニックである$textitp-annealing$を導入しました。
論文 参考訳(メタデータ) (2024-07-31T18:45:13Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。