論文の概要: Ensembling Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2505.16077v1
- Date: Wed, 21 May 2025 23:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.942777
- Title: Ensembling Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダの組み立て
- Authors: Soham Gadgil, Chris Lin, Su-In Lee,
- Abstract要約: スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
- 参考スコア(独自算出の注目度): 10.81463830315253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoders (SAEs) are used to decompose neural network activations into human-interpretable features. Typically, features learned by a single SAE are used for downstream applications. However, it has recently been shown that SAEs trained with different initial weights can learn different features, demonstrating that a single SAE captures only a limited subset of features that can be extracted from the activation space. Motivated by this limitation, we propose to ensemble multiple SAEs through naive bagging and boosting. Specifically, SAEs trained with different weight initializations are ensembled in naive bagging, whereas SAEs sequentially trained to minimize the residual error are ensembled in boosting. We evaluate our ensemble approaches with three settings of language models and SAE architectures. Our empirical results demonstrate that ensembling SAEs can improve the reconstruction of language model activations, diversity of features, and SAE stability. Furthermore, ensembling SAEs performs better than applying a single SAE on downstream tasks such as concept detection and spurious correlation removal, showing improved practical utility.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
通常、単一のSAEによって学習される機能は下流アプリケーションに使用される。
しかし、最近、異なる初期重みで訓練されたSAEが異なる特徴を学習できることが示され、単一のSAEがアクティベーション空間から抽出できる機能の限られたサブセットのみをキャプチャすることを示した。
この制限により,本研究では,複数のSAEをナイーブバッグやブースティングを通じてアンサンブルすることを提案する。
特に、異なる重量初期化で訓練されたSAEは、単純袋詰めでアンサンブルされるのに対し、残留誤差を最小限に抑えるために順次訓練されたSAEは、ブーピングでアンサンブルされる。
言語モデルとSAEアーキテクチャの3つの設定でアンサンブルアプローチを評価した。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
さらに、概念検出や素早い相関除去といった下流タスクに単一のSAEを適用するよりも、SAEのアンサンブル性が向上し、実用性が向上した。
関連論文リスト
- TopK Language Models [23.574227495324568]
TopK LMは、モデルサイズ、計算効率、解釈可能性の間の良好なトレードオフを提供する。
これらの機能はTopK LMsを安定させ、言語モデルがどのように概念を学び、表現するかを理解するための信頼性の高いツールにする。
論文 参考訳(メタデータ) (2025-06-26T16:56:43Z) - Dense SAE Latents Are Features, Not Bugs [75.08462524662072]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文 参考訳(メタデータ) (2025-06-18T17:59:35Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Boosting All-in-One Image Restoration via Self-Improved Privilege Learning [72.35265021054471]
SIPL(Self-Improved Privilege Learning)は、トレーニング以外の特権情報(PI)を推論段階に拡張することで制限を克服する新しいパラダイムである。
SIPLの中心は、学習可能なPrivleged Dictionaryを組み込んだ軽量モジュールであるProxy Fusionである。
大規模な実験により、SIPLは様々なオールインワン画像復元ベンチマークの最先端性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-30T04:36:52Z) - Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders [41.1110443501488]
SAEから得られる特徴の単言語性を評価するための新しい指標を提案する。
これらのSAE特徴を非難することは、LLMの1つの言語における能力を大幅に低下させるだけであり、他の言語はほとんど影響を受けないことが示されている。
我々はこれらSAEから派生した言語固有の特徴を活用してステアリングベクターを強化し,LLMによる言語制御を実現する。
論文 参考訳(メタデータ) (2025-05-08T10:24:44Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
スパースオートエンコーダ (SAEs) は,大規模言語モデル (LLMs) の解釈可能性と操舵性を向上させることが示されている。
本研究では,SAEをCLIPなどの視覚言語モデル(VLM)に適用し,視覚表現における単意味性を評価するための総合的な枠組みを導入する。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Sparse Autoencoders Trained on the Same Data Learn Different Features [0.7234862895932991]
スパースオートエンコーダ(SAE)は、大きな言語モデルで人間の解釈可能な特徴を明らかにするのに有用なツールである。
我々の研究は、SAEが同じモデルとデータに基づいて訓練したことを示しています。
論文 参考訳(メタデータ) (2025-01-28T01:24:16Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs [47.14410674505256]
マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。
本研究では,特定のトランスフォーマーヘッドが特定の構文的関係に焦点をあてる,アクセシビリティの自然発生特性である構文的注意構造(SAS)について検討する。
学習中にSASを操作することでSASの因果的役割を解明し,SASが文法的能力の発達に必要であることを示す。
論文 参考訳(メタデータ) (2023-09-13T20:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。