論文の概要: The Rate-Distortion-Polysemanticity Tradeoff in SAEs
- arxiv url: http://arxiv.org/abs/2605.14694v1
- Date: Thu, 14 May 2026 11:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.785764
- Title: The Rate-Distortion-Polysemanticity Tradeoff in SAEs
- Title(参考訳): SAEにおけるレート・歪・ポリセマンティ・トレードオフ
- Authors: Tommaso Mencattini, Francesco Montagna, Francesco Locatello,
- Abstract要約: 本稿では,SAEにおけるレート・ディストーション・ポリセマンティリティのトレードオフについて紹介する。
SAEを単意味に制限することは、必ずしも速度と歪みが増大することを示している。
我々は,ポリセマンティリティ尺度が満たすべき必要条件を導出することにより,実世界の設定まで分析を拡張した。
- 参考スコア(独自算出の注目度): 24.387030280550732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Autoencoders (SAEs) that can accurately reconstruct their input (minimizing distortion) by making efficient use of few features (minimizing the rate) often fail to learn monosemantic representations (highly interpretable), limiting their usefulness for mechanistic interpretability. In this paper, we characterise this tension in learning faithful, efficient, and interpretable explanations, introducing the Rate-Distortion-Polysemanticity tradeoff in SAEs. Under toy-modeling assumptions, we theoretically and empirically show that restricting the SAE to be monosemantic necessarily comes with an increase in rate and distortion. Assuming a generative model behind the input observations, we further demonstrate that the degree of polysemanticity of optimal SAEs is determined by the training data distribution, especially by the probability of features to co-occur. Finally, we extend the analysis to real-world settings by deriving necessary conditions that a polysemanticity measure should satisfy when the data-generating process is unknown, and we benchmark existing proxy metrics on SAEs trained on Large Language Models. Taken together, our findings show that polysemanticity is a data problem that should be accounted for when addressing it at the architectural and optimization level.
- Abstract(参考訳): 入力を正確に再構成できるスパースオートエンコーダ(SAE)は、数個の特徴(最小化率)を効率的に利用することで(歪みを最小化する)、単意味表現(高い解釈性)を学習できないことが多く、機械的解釈性に限界がある。
本稿では,この緊張感を,SAEsにおけるレート・ディストーション・ポリセマンティティートレードオフを導入して,忠実で効率的かつ解釈可能な説明を学習する上で特徴付ける。
玩具モデリングの仮定の下では、理論上、経験的に、SAEが単意味であることの制限は、必ずしも速度と歪みの増加を伴うことが示される。
入力観測の背景にある生成モデルを仮定すると、最適なSAEの多意味性の度合いは、トレーニングデータ分布、特に特徴の共起確率によって決定される。
最後に,データ生成プロセスが不明な場合,ポリセマンティクス尺度が満たすべき必要条件を導出することにより,実世界の設定まで解析を拡張し,大規模言語モデルで訓練されたSAE上の既存のプロキシメトリクスをベンチマークする。
この結果から,多意味性はアーキテクチャや最適化のレベルで対処する上で考慮すべきデータ問題であることがわかった。
関連論文リスト
- Improving Machine Learning Performance with Synthetic Augmentation [0.0]
我々は、効果的なトレーニング分布の修正として、合成増強を形式化する。
追加のサンプルは推定誤差を減少させるが、人口目標をシフトさせることもできる。
合成増強は分散支配体制においてのみ有用であることを示す。
希少な登録ターゲティングは、ドメイン固有のメトリクスを改善することができるが、無条件の置換推論と矛盾する可能性がある。
論文 参考訳(メタデータ) (2026-04-16T00:23:01Z) - Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - On the Theoretical Understanding of Identifiable Sparse Autoencoders and Beyond [36.107366496809675]
スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)によって学習された特徴を解釈する強力なツールとして登場した。
複雑な重畳されたポリセマンティックな特徴を、わずかに活性化されたニューラルネットワークによる特徴再構成によって解釈可能なモノセマンティックな特徴に復元することを目的としている。
SAEの幅広い応用にもかかわらず、SAEがどのような条件下で、重畳された多意味的特徴から基底真理単意味的特徴を完全に回復できるかは不明である。
論文 参考訳(メタデータ) (2025-06-19T02:16:08Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Semi-supervised Regression Analysis with Model Misspecification and High-dimensional Data [8.619243141968886]
条件付き平均モデルにおける回帰係数を推定するための推論フレームワークを提案する。
提案手法は,正規化推定器を適応度スコア(PS)と結果回帰(OR)モデルの両方に用い,拡張逆確率重み付き(AIPW)法を開発した。
我々の理論的な知見は、広範囲なシミュレーション研究と実世界のデータ応用を通して検証される。
論文 参考訳(メタデータ) (2024-06-20T00:34:54Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Federated Conformal Predictors for Distributed Uncertainty
Quantification [83.50609351513886]
コンフォーマル予測は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして現れつつある。
本稿では,共形予測を連邦学習環境に拡張する。
本稿では、FL設定に適した部分交換可能性の弱い概念を提案し、それをフェデレート・コンフォーマル予測フレームワークの開発に利用する。
論文 参考訳(メタデータ) (2023-05-27T19:57:27Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。