論文の概要: Route Sparse Autoencoder to Interpret Large Language Models
- arxiv url: http://arxiv.org/abs/2503.08200v1
- Date: Tue, 11 Mar 2025 09:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:59.518457
- Title: Route Sparse Autoencoder to Interpret Large Language Models
- Title(参考訳): 大規模言語モデルの解釈のための経路スパースオートエンコーダ
- Authors: Wei Shi, Sihang Li, Tao Liang, Mingyang Wan, Gojun Ma, Xiang Wang, Xiangnan He,
- Abstract要約: Route Sparse Autoencoder (RouteSAE) は、ルーティングメカニズムを共有SAEと統合し、複数のレイヤから機能を効率的に抽出するフレームワークである。
64の空間的制約の下では、RouteSAEはベースラインSAEよりも22.5%高い特徴を抽出し、22.3%高い解釈可能性スコアを達成している。
- 参考スコア(独自算出の注目度): 32.920109679490764
- License:
- Abstract: Mechanistic interpretability of large language models (LLMs) aims to uncover the internal processes of information propagation and reasoning. Sparse autoencoders (SAEs) have demonstrated promise in this domain by extracting interpretable and monosemantic features. However, prior works primarily focus on feature extraction from a single layer, failing to effectively capture activations that span multiple layers. In this paper, we introduce Route Sparse Autoencoder (RouteSAE), a new framework that integrates a routing mechanism with a shared SAE to efficiently extract features from multiple layers. It dynamically assigns weights to activations from different layers, incurring minimal parameter overhead while achieving high interpretability and flexibility for targeted feature manipulation. We evaluate RouteSAE through extensive experiments on Llama-3.2-1B-Instruct. Specifically, under the same sparsity constraint of 64, RouteSAE extracts 22.5% more features than baseline SAEs while achieving a 22.3% higher interpretability score. These results underscore the potential of RouteSAE as a scalable and effective method for LLM interpretability, with applications in feature discovery and model intervention. Our codes are available at https://github.com/swei2001/RouteSAEs.
- Abstract(参考訳): 大規模言語モデルの機械論的解釈可能性 (LLM) は、情報伝達と推論の内部過程を明らかにすることを目的としている。
スパースオートエンコーダ (SAEs) は、解釈可能かつ単意味的な特徴を抽出することによって、この領域で有望性を証明している。
しかしながら、以前の作業は主に単一のレイヤからの機能抽出に重点を置いており、複数のレイヤにまたがるアクティベーションを効果的にキャプチャできない。
本稿では,共有SAEとルーティング機構を統合し,複数のレイヤの特徴を効率的に抽出する新しいフレームワークであるRouteSAEを紹介する。
動的に重みを異なるレイヤからのアクティベートに割り当て、最小限のパラメータオーバーヘッドを発生させ、高い解釈可能性とターゲット機能操作の柔軟性を実現する。
我々はLlama-3.2-1B-Instructの広範囲な実験を通してRouteSAEを評価する。
特に64の間隔制約の下では、RouteSAEはベースラインSAEよりも22.5%多くの特徴を抽出し、22.3%高い解釈可能性スコアを達成している。
これらの結果は,LuteSAEがLLM解釈可能性のスケーラブルで効果的な方法であり,特徴発見やモデル介入に応用できる可能性を示している。
私たちのコードはhttps://github.com/swei2001/RouteSAEs.comで公開されています。
関連論文リスト
- Sparse Autoencoder Features for Classifications and Transferability [11.2185030332009]
大規模言語モデル(LLM)からの特徴抽出のためのスパースオートエンコーダ(SAE)の解析
本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。
論文 参考訳(メタデータ) (2025-02-17T02:30:45Z) - Sparse Autoencoders Trained on the Same Data Learn Different Features [0.7234862895932991]
スパースオートエンコーダ(SAE)は、大きな言語モデルで人間の解釈可能な特徴を明らかにするのに有用なツールである。
我々の研究は、SAEが同じモデルとデータに基づいて訓練したことを示しています。
論文 参考訳(メタデータ) (2025-01-28T01:24:16Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己制限を統合したセルフプレイフレームワークで、気を散らさずに有効かつ同等の選好ペアを得る。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - SparseDet: A Simple and Effective Framework for Fully Sparse LiDAR-based 3D Object Detection [14.137208879448389]
LiDARベースのスパース3Dオブジェクト検出は、自動運転アプリケーションにおいて重要な役割を果たす。
既存のメソッドでは、単一の中央のvoxelの機能をオブジェクトプロキシとして使用するか、フォアグラウンドポイントの集約されたクラスタをオブジェクトプロキシとして扱う。
本稿では,スパースクエリをオブジェクトプロキシとして設計するSparseDetを提案する。
論文 参考訳(メタデータ) (2024-06-16T12:11:44Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。