論文の概要: Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks
- arxiv url: http://arxiv.org/abs/2411.18895v1
- Date: Thu, 28 Nov 2024 03:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:20.631922
- Title: Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks
- Title(参考訳): 目標概念消去課題におけるスパースオートエンコーダの評価
- Authors: Adam Karvonen, Can Rager, Samuel Marks, Neel Nanda,
- Abstract要約: スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを解釈可能な単位に分解することを目的とした解釈可能性技術である。
我々は,マークスらによる下流作業である ShiFT に基づく評価のファミリを紹介する。
我々は ShiFT をSAE 品質の自動測定基準に適合させ,人間のアノテーションを LLM に置き換える。
また、SAEが同様の概念を解き放つ能力を定量化するTPP(Targeted Probe Perturbation)指標も導入する。
- 参考スコア(独自算出の注目度): 1.4565166775409717
- License:
- Abstract: Sparse Autoencoders (SAEs) are an interpretability technique aimed at decomposing neural network activations into interpretable units. However, a major bottleneck for SAE development has been the lack of high-quality performance metrics, with prior work largely relying on unsupervised proxies. In this work, we introduce a family of evaluations based on SHIFT, a downstream task from Marks et al. (Sparse Feature Circuits, 2024) in which spurious cues are removed from a classifier by ablating SAE features judged to be task-irrelevant by a human annotator. We adapt SHIFT into an automated metric of SAE quality; this involves replacing the human annotator with an LLM. Additionally, we introduce the Targeted Probe Perturbation (TPP) metric that quantifies an SAE's ability to disentangle similar concepts, effectively scaling SHIFT to a wider range of datasets. We apply both SHIFT and TPP to multiple open-source models, demonstrating that these metrics effectively differentiate between various SAE training hyperparameters and architectures.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを解釈可能な単位に分解することを目的とした解釈可能性技術である。
しかし、SAE開発の大きなボトルネックは、品質の高いパフォーマンス指標の欠如であり、以前の作業は主に教師なしのプロキシに依存していた。
本稿では,マークスらによる下流タスクであるShift(スパース・フィーチャー・サーキット,2024)に基づく評価のファミリを紹介し,人間のアノテータがタスク非関連と判断したSAE特徴を非難することにより,素早い手がかりを分類器から除去する。
我々は ShiFT をSAE 品質の自動測定基準に適合させ,人間のアノテーションを LLM に置き換える。
さらに、SAEが類似した概念を解き放つ能力を定量化し、ShiFTをより広い範囲のデータセットに効果的にスケールするTPP(Targeted Probe Perturbation)指標を導入する。
ShiFTとTPPの両方を複数のオープンソースモデルに適用し、これらの指標が様々なSAEトレーニングハイパーパラメータとアーキテクチャを効果的に区別できることを実証した。
関連論文リスト
- Sparse Autoencoder Features for Classifications and Transferability [11.2185030332009]
大規模言語モデル(LLM)からの特徴抽出のためのスパースオートエンコーダ(SAE)の解析
本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。
論文 参考訳(メタデータ) (2025-02-17T02:30:45Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Efficient Dictionary Learning with Switch Sparse Autoencoders [8.577217344304072]
本稿では,SAEのトレーニングコスト削減を目的とした新しいSAEアーキテクチャであるSwitch Sparse Autoencodersを紹介する。
専門家モデルのまばらな混合にインスパイアされたSAEは、より小さな「専門家」SAE間での経路活性化ベクトルを切り替える。
この結果,Switch SAEは,所定のトレーニング計算予算に対して,再構成と疎性フロンティアの大幅な改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-10-10T17:59:11Z) - SAGE: Scalable Ground Truth Evaluations for Large Sparse Autoencoders [7.065809768803578]
SAGE: Scalable Autoencoder Ground-Truth Evaluationは,SAEの真理評価フレームワークである。
提案手法は,タスク固有のアクティベーションを自動的に識別し,これらの点における基底的真理特徴を計算できることを実証する。
我々の枠組みは、解釈可能性研究におけるSAEの一般化可能な大規模評価の道を開くものである。
論文 参考訳(メタデータ) (2024-10-09T21:42:39Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - SAFE: a SAR Feature Extractor based on self-supervised learning and masked Siamese ViTs [5.961207817077044]
マスク付きシームズ・ビジョン・トランスフォーマーをベースとした新しい自己教師型学習フレームワークを提案し,SAFEと命名された汎用SAR機能エクストラクタを提案する。
提案手法は,厳密で一般化可能な特徴を抽出し,ラベルのないSARデータに基づいてモデルを訓練するために,対照的な学習原理を利用する。
サブアパーチャ分解や非特異化など,SAR画像特有のデータ拡張技術を導入する。
我々のネットワークは、評価に使用されるセンサーの訓練を受けなくても、数ショットの分類やセグメンテーションタスクにおいて、他の最先端の手法と競合したり、超えたりしています。
論文 参考訳(メタデータ) (2024-06-30T23:11:20Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。