論文の概要: SAGE: Scalable Ground Truth Evaluations for Large Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2410.07456v1
- Date: Wed, 9 Oct 2024 21:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 17:06:37.637957
- Title: SAGE: Scalable Ground Truth Evaluations for Large Sparse Autoencoders
- Title(参考訳): SAGE: 大規模スパースオートエンコーダのためのスケーラブルなグラウンドトゥルース評価
- Authors: Constantin Venhoff, Anisoara Calinescu, Philip Torr, Christian Schroeder de Witt,
- Abstract要約: SAGE: Scalable Autoencoder Ground-Truth Evaluationは,SAEの真理評価フレームワークである。
提案手法は,タスク固有のアクティベーションを自動的に識別し,これらの点における基底的真理特徴を計算できることを実証する。
我々の枠組みは、解釈可能性研究におけるSAEの一般化可能な大規模評価の道を開くものである。
- 参考スコア(独自算出の注目度): 7.065809768803578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in interpretability is to decompose model activations into meaningful features. Sparse autoencoders (SAEs) have emerged as a promising tool for this task. However, a central problem in evaluating the quality of SAEs is the absence of ground truth features to serve as an evaluation gold standard. Current evaluation methods for SAEs are therefore confronted with a significant trade-off: SAEs can either leverage toy models or other proxies with predefined ground truth features; or they use extensive prior knowledge of realistic task circuits. The former limits the generalizability of the evaluation results, while the latter limits the range of models and tasks that can be used for evaluations. We introduce SAGE: Scalable Autoencoder Ground-truth Evaluation, a ground truth evaluation framework for SAEs that scales to large state-of-the-art SAEs and models. We demonstrate that our method can automatically identify task-specific activations and compute ground truth features at these points. Compared to previous methods we reduce the training overhead by introducing a novel reconstruction method that allows to apply residual stream SAEs to sublayer activations. This eliminates the need for SAEs trained on every task-specific activation location. Then we validate the scalability of our framework, by evaluating SAEs on novel tasks on Pythia70M, GPT-2 Small, and Gemma-2-2. Our framework therefore paves the way for generalizable, large-scale evaluations of SAEs in interpretability research.
- Abstract(参考訳): 解釈可能性の重要な課題は、モデルのアクティベーションを意味のある機能に分解することだ。
スパースオートエンコーダ(SAE)がこのタスクの有望なツールとして登場した。
しかし、SAEの質を評価する上での中心的な問題は、金の評価基準として機能する根拠となる真理の特徴が欠如していることである。
したがって、SAEの現在の評価手法は、重要なトレードオフに直面している:SAEは、事前に定義された地上の真理特性を持つおもちゃモデルや他のプロキシを利用するか、または、現実的なタスク回路に関する広範な事前知識を使用することができる。
前者は評価結果の一般化可能性を制限するが、後者は評価に使用できるモデルやタスクの範囲を制限する。
SAGE: Scalable Autoencoder Ground-Truth Evaluationは、SAEのための基礎的真理評価フレームワークで、最先端のSAEやモデルにスケールする。
提案手法は,タスク固有のアクティベーションを自動的に識別し,これらの点における基底的真理特徴を計算できることを実証する。
従来の手法と比較して,サブ層活性化に残留ストリームSAEを適用可能な新しい再構成手法を導入することにより,トレーニングオーバーヘッドを低減することができる。
これにより、タスク固有のアクティベーションロケーション毎にトレーニングされたSAEが不要になる。
次に、Pythia70M, GPT-2 Small, Gemma-2における新しいタスクのSAEを評価することにより、我々のフレームワークのスケーラビリティを検証する。
そこで,本研究の枠組みは,解釈可能性研究におけるSAEの一般化,大規模評価の道を開くものである。
関連論文リスト
- Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models [26.748765050034876]
特殊スパースオートエンコーダ(SSAE)は、特定の点に注目して、暗黒物質の特徴を照らす。
SSAEは,汎用SAEの能力を超越して,サブドメインのテール概念を効果的に捉えていることを示す。
SSAEs の実用性について,Bias in Bios データセットのケーススタディで紹介し,SSAEs が有意な性別情報を除去するために適用した場合,最悪のグループ分類精度が 12.5% 向上することを示した。
論文 参考訳(メタデータ) (2024-11-01T17:09:34Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - SS-ADA: A Semi-Supervised Active Domain Adaptation Framework for Semantic Segmentation [25.929173344653158]
セマンティックセグメンテーションのための半教師付きアクティブドメイン適応(SS-ADA)フレームワークを提案する。
SS-ADAは、アクティブラーニングを半教師付きセマンティックセグメンテーションに統合し、教師付き学習の精度を達成する。
本研究では,合成ドメイン適応設定と実ドメイン適応設定について広範な実験を行った。
論文 参考訳(メタデータ) (2024-06-17T13:40:42Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - WeakSAM: Segment Anything Meets Weakly-supervised Instance-level Recognition [38.42053754669399]
不正確な監督を用いた弱々しい教師付き視覚認識は、批判的ながら困難な学習問題である。
本稿では、WeakSAMを導入し、ビジョン基礎モデルに含まれる事前学習された世界知識、すなわち、セグメンツ・アシング・モデル(SAM)を利用して、弱教師付きオブジェクト検出(WSOD)とセグメンテーションを解決する。
WeakSAMは、WSODおよびWSISベンチマークにおいて、それぞれ7.4%と8.5%の平均的な改善という大きなマージンを持つ従来の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version) [5.467140383171385]
ロボット制御のための強化学習(RL)は通常、環境状態の詳細な表現を必要とする。
空間オートエンコーダ(SAE)のようなキーポイント検出器は、高次元画像データから低次元表現を抽出する一般的な手法である。
論文 参考訳(メタデータ) (2023-12-01T13:56:28Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。