論文の概要: Evaluating Open-Source Sparse Autoencoders on Disentangling Factual Knowledge in GPT-2 Small
- arxiv url: http://arxiv.org/abs/2409.04478v1
- Date: Thu, 5 Sep 2024 18:00:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 22:45:53.452448
- Title: Evaluating Open-Source Sparse Autoencoders on Disentangling Factual Knowledge in GPT-2 Small
- Title(参考訳): オープンソーススパースオートエンコーダによるGPT-2小形ファクチュアル知識の分散評価
- Authors: Maheep Chaudhary, Atticus Geiger,
- Abstract要約: 我々は、GPT-2小の隠れ表現を訓練したSAEが、その都市がどの国にあり、どの大陸にあるかを知るための一連の特徴を持っているかどうかを評価する。
以上の結果から,SAEはニューロンベースラインに到達するのに苦慮しており,DASスカイラインに近づかないことが明らかとなった。
- 参考スコア(独自算出の注目度): 6.306964287762374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A popular new method in mechanistic interpretability is to train high-dimensional sparse autoencoders (SAEs) on neuron activations and use SAE features as the atomic units of analysis. However, the body of evidence on whether SAE feature spaces are useful for causal analysis is underdeveloped. In this work, we use the RAVEL benchmark to evaluate whether SAEs trained on hidden representations of GPT-2 small have sets of features that separately mediate knowledge of which country a city is in and which continent it is in. We evaluate four open-source SAEs for GPT-2 small against each other, with neurons serving as a baseline, and linear features learned via distributed alignment search (DAS) serving as a skyline. For each, we learn a binary mask to select features that will be patched to change the country of a city without changing the continent, or vice versa. Our results show that SAEs struggle to reach the neuron baseline, and none come close to the DAS skyline. We release code here: https://github.com/MaheepChaudhary/SAE-Ravel
- Abstract(参考訳): 機械的解釈性における一般的な新しい手法は、高次元スパースオートエンコーダ(SAE)をニューロンの活性化で訓練し、SAE特徴を分析の原子単位として使用することである。
しかし,SAE特徴空間が因果解析に有用かどうかの証拠は乏しい。
本研究では,GAT-2小の隠れ表現を訓練したSAEが,都市がどの国にあるのか,どの大陸にあるのかを個別に仲介する特徴を持つかどうかを評価するために,RAVELベンチマークを用いた。
我々は,GPT-2の4つのオープンソースSAEを互いに比較し,ベースラインとして機能するニューロンと,スカイラインとして機能する分散アライメントサーチ(DAS)によって学習される線形特徴について検討した。
それぞれにバイナリマスクを学習し、大陸を変えることなく、都市の国を変えるためにパッチが当てられる機能を選択します。
以上の結果から,SAEはニューロンベースラインに到達するのに苦慮しており,DASスカイラインに近づかないことが明らかとなった。
https://github.com/MaheepChaudhary/SAE-Ravel
関連論文リスト
- Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。
textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文 参考訳(メタデータ) (2024-11-02T11:42:23Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Efficient Dictionary Learning with Switch Sparse Autoencoders [8.577217344304072]
本稿では,SAEのトレーニングコスト削減を目的とした新しいSAEアーキテクチャであるSwitch Sparse Autoencodersを紹介する。
専門家モデルのまばらな混合にインスパイアされたSAEは、より小さな「専門家」SAE間での経路活性化ベクトルを切り替える。
この結果,Switch SAEは,所定のトレーニング計算予算に対して,再構成と疎性フロンティアの大幅な改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-10-10T17:59:11Z) - Identifying Functionally Important Features with End-to-End Sparse Dictionary Learning [0.9374652839580183]
ニューラルネットワークによって学習された特徴を特定することは、機械的解釈可能性における中核的な課題である。
本稿では,SAEの学習方法であるエンドツーエンドのスパース辞書学習を提案する。
我々は,e2e SAE特徴と標準SAE特徴との幾何学的および定性的差異について検討する。
論文 参考訳(メタデータ) (2024-05-17T17:03:46Z) - RaSa: Relation and Sensitivity Aware Representation Learning for
Text-based Person Search [51.09723403468361]
関係性と感性を考慮した表現学習法(RaSa)を提案する。
RaSaにはリレーショナル・アウェア・ラーニング(RA)と感性・アウェア・ラーニング(SA)という2つの新しいタスクが含まれている。
実験によると、RaSaは既存の最先端メソッドを6.94%、4.45%、および15.35%で上回っている。
論文 参考訳(メタデータ) (2023-05-23T03:53:57Z) - Adaptive Reordering Sampler with Neurally Guided MAGSAC [63.139445467355934]
そこで我々は, 常に不整数のみを構成する確率が最も高い試料を選定する頑健な推定器のための新しいサンプリング器を提案する。
反復が失敗すると、イリヤ確率はベイズ的アプローチによって原則的に更新される。
幾何的に妥当な方法で、あらゆる種類の特徴に対して推定できる配向とスケールを利用する新しい損失を導入する。
論文 参考訳(メタデータ) (2021-11-28T10:16:38Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - OpenStreetMap: Challenges and Opportunities in Machine Learning and
Remote Sensing [66.23463054467653]
本稿では,OpenStreetMapデータの改良と利用のための機械学習に基づく最近の手法について述べる。
私たちは、OSMがリモートセンシングデータの解釈方法を変え、機械学習とのシナジーが参加型マップ作成をスケールできると考えている。
論文 参考訳(メタデータ) (2020-07-13T09:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。