論文の概要: Resurrecting the Salmon: Rethinking Mechanistic Interpretability with Domain-Specific Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2508.09363v1
- Date: Tue, 12 Aug 2025 21:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.699259
- Title: Resurrecting the Salmon: Rethinking Mechanistic Interpretability with Domain-Specific Sparse Autoencoders
- Title(参考訳): サーモンの復活:ドメイン特化スパースオートエンコーダによる機械的解釈可能性の再考
- Authors: Charles O'Neill, Mudith Jayasekara, Max Kirkby,
- Abstract要約: SAEトレーニングを適切に定義されたドメインに制限することは、ドメイン固有の機能へのキャパシティを再配置することを示します。
SAEは最大20%のばらつきを説明でき、損失回復率が向上し、線形残留誤差を低減できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) decompose large language model (LLM) activations into latent features that reveal mechanistic structure. Conventional SAEs train on broad data distributions, forcing a fixed latent budget to capture only high-frequency, generic patterns. This often results in significant linear ``dark matter'' in reconstruction error and produces latents that fragment or absorb each other, complicating interpretation. We show that restricting SAE training to a well-defined domain (medical text) reallocates capacity to domain-specific features, improving both reconstruction fidelity and interpretability. Training JumpReLU SAEs on layer-20 activations of Gemma-2 models using 195k clinical QA examples, we find that domain-confined SAEs explain up to 20\% more variance, achieve higher loss recovery, and reduce linear residual error compared to broad-domain SAEs. Automated and human evaluations confirm that learned features align with clinically meaningful concepts (e.g., ``taste sensations'' or ``infectious mononucleosis''), rather than frequent but uninformative tokens. These domain-specific SAEs capture relevant linear structure, leaving a smaller, more purely nonlinear residual. We conclude that domain-confinement mitigates key limitations of broad-domain SAEs, enabling more complete and interpretable latent decompositions, and suggesting the field may need to question ``foundation-model'' scaling for general-purpose SAEs.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、大きな言語モデル(LLM)のアクティベーションを機械的構造を示す潜在機能に分解する。
従来型のSAEは、広範なデータ配信をトレーニングし、固定された遅延予算を、高周波で汎用的なパターンのみをキャプチャすることを余儀なくされた。
これはしばしば、再構成エラーにおいて重要な線形「暗黒物質」を生じさせ、解釈を複雑にし、互いに断片化または吸収する潜水剤を生成する。
本研究では,SAEトレーニングを適切に定義されたドメイン(医療用テキスト)に制限することで,ドメイン固有の機能に能力を再配置し,再構築の忠実度と解釈性の両方を改善していることを示す。
Gemma-2モデルの層20アクティベートに対するJumpReLU SAEsのトレーニングを195k臨床QA例を用いて行った結果,領域集中型SAEsでは最大20倍の分散が説明でき,損失回復率が向上し,広い領域のSAEに比べて線形残差が減少することがわかった。
自動的および人的評価は、学習された特徴が頻繁だが非形式的トークンではなく、臨床的に有意義な概念(例えば「味覚感覚」や「感染性単核症」)と一致していることを確認する。
これらのドメイン固有のSAEは関連する線形構造を捉え、より小さく、より純粋な非線形残基を残している。
ドメイン分割は、より完全で解釈可能な潜在分解を可能にするとともに、汎用SAEの「境界モデル」スケーリングに疑問を投げかける必要があることを示唆する。
関連論文リスト
- Teach Old SAEs New Domain Tricks with Boosting [3.3865605512957453]
本稿では,完全再訓練を必要とせず,この特徴の盲点に対処する残差学習手法を提案する。
本研究では,ドメイン固有のテキストに基づいて,事前訓練されたSAEの再構成誤りをモデル化するための二次SAEのトレーニングを提案する。
推論中の両モデルの出力を要約することにより、LLMのクロスエントロピーと説明分散メトリクスの双方において、大幅な改善を示す。
論文 参考訳(メタデータ) (2025-07-17T10:57:49Z) - On the Theoretical Understanding of Identifiable Sparse Autoencoders and Beyond [36.107366496809675]
スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)によって学習された特徴を解釈する強力なツールとして登場した。
複雑な重畳されたポリセマンティックな特徴を、わずかに活性化されたニューラルネットワークによる特徴再構成によって解釈可能なモノセマンティックな特徴に復元することを目的としている。
SAEの幅広い応用にもかかわらず、SAEがどのような条件下で、重畳された多意味的特徴から基底真理単意味的特徴を完全に回復できるかは不明である。
論文 参考訳(メタデータ) (2025-06-19T02:16:08Z) - Dense SAE Latents Are Features, Not Bugs [75.08462524662072]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文 参考訳(メタデータ) (2025-06-18T17:59:35Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Interpreting CLIP with Hierarchical Sparse Autoencoders [8.692675181549117]
サエマトリオシュカ(MSAE)は複数の粒度の階層的表現を同時に学習する。
MSAEは、CLIPの再構築品質とスパーシリティの間に新しい最先端のフロンティアを確立する。
論文 参考訳(メタデータ) (2025-02-27T22:39:13Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - Fuzzy Attention Neural Network to Tackle Discontinuity in Airway
Segmentation [67.19443246236048]
気道セグメンテーションは肺疾患の検査、診断、予後に重要である。
いくつかの小型の気道支線(気管支や終端など)は自動セグメンテーションの難しさを著しく増す。
本稿では,新しいファジィアテンションニューラルネットワークと包括的損失関数を備える,気道セグメンテーションの効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-09-05T16:38:13Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。