論文の概要: Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2505.11756v1
- Date: Fri, 16 May 2025 23:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.829125
- Title: Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders
- Title(参考訳): Feature Hedging: 関連した機能がスパースオートエンコーダを壊す
- Authors: David Chanin, Tomáš Dulka, Adrià Garriga-Alonso,
- Abstract要約: スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
- 参考スコア(独自算出の注目度): 1.0582505915332336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is assumed that sparse autoencoders (SAEs) decompose polysemantic activations into interpretable linear directions, as long as the activations are composed of sparse linear combinations of underlying features. However, we find that if an SAE is more narrow than the number of underlying "true features" on which it is trained, and there is correlation between features, the SAE will merge components of correlated features together, thus destroying monosemanticity. In LLM SAEs, these two conditions are almost certainly true. This phenomenon, which we call feature hedging, is caused by SAE reconstruction loss, and is more severe the narrower the SAE. In this work, we introduce the problem of feature hedging and study it both theoretically in toy models and empirically in SAEs trained on LLMs. We suspect that feature hedging may be one of the core reasons that SAEs consistently underperform supervised baselines. Finally, we use our understanding of feature hedging to propose an improved variant of matryoshka SAEs. Our work shows there remain fundamental issues with SAEs, but we are hopeful that that highlighting feature hedging will catalyze future advances that allow SAEs to achieve their full potential of interpreting LLMs at scale.
- Abstract(参考訳): スパースオートエンコーダ (SAE) は, 基礎となる特徴のスパース線形結合で構成されている限り, ポリセマンティック活性化を解釈可能な線形方向へ分解する。
しかし、SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連した特徴の構成要素をまとめて統合し、モノセマンティック性を破壊する。
LLM SAEでは、これらの2つの条件はほぼ確実に真である。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
本研究では, 機能ヘッジの問題を紹介し, 理論的には玩具モデルで, 実験的にはLSMで訓練されたSAEで研究する。
機能ヘッジは、SAEが教師付きベースラインを一貫して過小評価している中核的な理由の1つかもしれない。
最後に, 特徴ヘッジの理解を利用して, 改良された行列式SAEを提案する。
我々の研究は、SAEにはまだ根本的な問題があることを示していますが、機能強調が今後の進歩を触媒し、SAEがLLMを大規模に解釈する可能性を完全に達成できることを期待しています。
関連論文リスト
- Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
スパースオートエンコーダ (SAEs) は,大規模言語モデル (LLMs) の解釈可能性と操舵性を向上させることが示されている。
本研究では,SAEをCLIPなどの視覚言語モデル(VLM)に適用し,視覚表現における単意味性を評価するための総合的な枠組みを導入する。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality [3.9230690073443166]
そこで本研究では,スパース特徴ベクトルの大きさを,その正則な閉形式誤差境界を持つ密度ベクトルを用いて近似できることを示す。
本稿では,AFA (Approximate Activation Feature) を提案する。
トップAFA SAE は最先端の最先端 SAE に匹敵する再構築損失を達成できることを実証する。
論文 参考訳(メタデータ) (2025-03-31T16:22:11Z) - Are Sparse Autoencoders Useful? A Case Study in Sparse Probing [6.836374436707495]
スパースオートエンコーダ(SAE)は、大言語モデル(LLM)アクティベーションで表される概念を解釈する一般的な方法である。
もう一つの証拠源は、SAEが既存のベースラインを超えて下流タスクのパフォーマンスを改善していることを示すことである。
SAEを4つの状況下でのLCM活性化の現実的なタスクに適用することで、これを検証する。
論文 参考訳(メタデータ) (2025-02-23T18:54:15Z) - Sparse Autoencoders Trained on the Same Data Learn Different Features [0.7234862895932991]
スパースオートエンコーダ(SAE)は、大きな言語モデルで人間の解釈可能な特徴を明らかにするのに有用なツールである。
我々の研究は、SAEが同じモデルとデータに基づいて訓練したことを示しています。
論文 参考訳(メタデータ) (2025-01-28T01:24:16Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Understanding the Role of Equivariance in Self-supervised Learning [51.56331245499712]
同変自己教師学習(E-SSL)は、拡張に注意する機能を学ぶ。
我々は、同変タスクと分類タスクの相乗効果を生成するE-SSLにおける重要な説明アウト効果を同定する。
E-SSLの実用設計の原則をいくつか明らかにする。
論文 参考訳(メタデータ) (2024-11-10T16:09:47Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。