論文の概要: How Quantization Changes Interpretable Features: A Sparse Autoencoder Analysis of Language Models
- arxiv url: http://arxiv.org/abs/2606.03002v1
- Date: Tue, 02 Jun 2026 01:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.673449
- Title: How Quantization Changes Interpretable Features: A Sparse Autoencoder Analysis of Language Models
- Title(参考訳): 量子化が解釈可能な特徴をどのように変えるか: 言語モデルのスパースオートエンコーダ分析
- Authors: Evan Duan,
- Abstract要約: 密度の高い完全精度モデルから抽出したスパースオートエンコーダの特徴が、そのモデルが量子化されると忠実であるかどうかを問う。
機能は一度にすべて失敗するのではなく、体系的に分解されるのです。
- 参考スコア(独自算出の注目度): 0.16921396880325779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is a standard path to deploying large language models, and a quantized model is typically judged acceptable when its perplexity or downstream accuracy stays close to the full-precision original. Whether the model still computes in the same way, or whether the interpretable features identified in the full-precision model survive weight rounding, is rarely tested, even as safety audits and steering interventions increasingly rely on those features. We ask whether sparse autoencoder (SAE) features extracted from a dense full-precision model remain faithful once that model is quantized. Using a frozen SAE as a fixed measurement basis, we encode full-precision and round-to-nearest (RTN) quantized activations on identical tokens and quantify per-feature survival by Pearson correlation, sweeping bit-widths from INT8 to INT4 on Pythia-70M and Gemma-2-2B. We find that feature survival is graded: features degrade systematically rather than failing all at once, with 62.4 percent of active features surviving at INT6 on Pythia-70M and 51.3 percent surviving at INT6 on Gemma-2-2B, and with most non-survivors blurred rather than destroyed. Survival is predictable from full-precision statistics alone, with cross-validated AUCs of 0.92 to 0.97 and peak activation as the strongest marginal predictor. Critically, task metrics can miss this damage: on Gemma-2-2B, INT7 improves perplexity while degrading 18.7 percent of features. Finally, quantization and matched-perplexity magnitude pruning damage strongly overlapping feature sets, with Jaccard overlap of 0.79 to 0.86 and damage-score Spearman correlation of 0.98, suggesting a shared mode of compression-induced vulnerability. These results show that behavioral parity is insufficient evidence that interpretability findings transfer to quantized deployments, motivating feature-level audits of compression.
- Abstract(参考訳): 量子化は、大きな言語モデルをデプロイするための標準的な経路であり、量子化モデルは、その難易度や下流の精度が完全精度のオリジナルに近い場合、一般的に許容される。
モデルがいまだに同じ方法で計算されているか、あるいは、完全精度モデルで特定された解釈可能な機能が重み付けを生き残るかは、安全監査やステアリング介入がこれらの機能にますます依存しているにもかかわらず、検査されることは滅多にない。
我々は,高密度完全精度モデルから抽出したスパースオートエンコーダ(SAE)の特徴が,そのモデルが量子化されると忠実であるかどうかを問う。
凍結したSAEを固定測定基準として、同一トークン上でのフル精度とラウンド・トゥ・アネレスト(RTN)の量子化活性化を符号化し、ピアソン相関を用いて、Pythia-70MおよびGemma-2-2B上でINT8からINT4までのビット幅を網羅する。
特徴は一度にすべて失敗するのではなく、体系的に分解され、62.4パーセントがPythia-70MのINT6で、51.3%がGemma-2-2BのINT6で生存し、多くの非生存者が破壊された。
生存率は完全精度の統計だけで予測可能であり、AUCは0.92から0.97で、ピークアクティベーションが最強である。
Gemma-2-2Bでは、INT7は18.7%の機能を劣化させながら、複雑さを改善している。
最後に、量子化と一致したパープレキシティのプルーニング損傷は、強い重なり合う特徴セットであり、ジャカードのオーバーラップは0.79から0.86であり、スピアマン相関は0.98であり、圧縮によって引き起こされる脆弱性の共有モードが示唆された。
これらの結果は,解釈可能性の発見が定量的展開に伝達し,特徴レベルの圧縮監査を動機付けていることを示すには,行動パリティが不十分であることを示している。
関連論文リスト
- Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen [0.0]
実験では,7つの指導訓練付きオープンウェイトモデルを用いて,最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
カテゴリー的誘因は有効性には至らなかった。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった。
論文 参考訳(メタデータ) (2026-04-24T04:45:21Z) - Are LLM Uncertainty and Correctness Encoded by the Same Features? A Functional Dissociation via Sparse Autoencoders [10.172598963520961]
大規模言語モデルは、その出力レベルの不確かさと実際の正しさが、同じ内部メカニズムによって駆動されるか、または異なる特徴集団によって駆動されるかという疑問を提起する。
モデル予測を正当性と信頼軸に沿って分割する2x2フレームワークを導入し,スパースオートエンコーダを用いて各次元に関連する特徴を独立に同定する。
論文 参考訳(メタデータ) (2026-04-21T20:34:14Z) - Sparse Autoencoder Decomposition of Clinical Sequence Model Representations: Feature Complexity, Task Specialisation, and Mortality Prediction [1.7865154997539017]
スパースオートエンコーダ(SAE)は、大きな言語モデルやタンパク質言語モデルに適用されているが、電子健康記録(EHR)基礎モデルには体系的に適用されていない。
InSPECT(外来)とMIMIC-IV(ICU)の残留ストリーム抽出点10点すべてにおいて、14.5万パラメータ自己回帰性臨床シーケンスモデルであるFlatASCEND上でTopK SAEを訓練する。
SAE分解は、トランスフォーマーの深さをまたいだプログレッシブな抽象化を明らかにする:層0の特徴は、ほぼ完全なトークン検出器(45.7%シングルトン)であり、層6の特徴は、複数の臨床カテゴリ(0.5%シングルトン)にまたがる約30のトークンタイプにまたがっている。
論文 参考訳(メタデータ) (2026-04-13T12:08:32Z) - Understanding NPM Malicious Package Detection: A Benchmark-Driven Empirical Analysis [10.599261033874884]
NPMエコシステムは、ソフトウェアサプライチェーン攻撃の主要なターゲットとなっている。
ベンチマークによるNPMマルウェア検出の実証分析を行う。
我々は、11の行動カテゴリと8の回避テクニックを付加した、6,420の悪意のある7,288の良性パッケージのデータセットを構築した。
論文 参考訳(メタデータ) (2026-03-29T07:04:31Z) - Multi-Axis Trust Modeling for Interpretable Account Hijacking Detection [1.0152838128195467]
本稿では,ハディスにインスパイアされたマルチ軸信頼モデリングフレームワークを提案する。
我々は,5つの信頼軸 – 長期的整合性(アダラ),行動精度(ダブト),文脈連続性(アイソナド),累積的評価,異常証拠 – を,ユーザアカウントに対して意味論的に意味のある行動特徴からなる26のコンパクトなセットに翻訳する。
CLUE-LDSクラウドアクティビティデータセットのフレームワークを,インジェクトされたアカウントハイジャックシナリオを用いて評価した。
論文 参考訳(メタデータ) (2026-02-20T19:36:30Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - RULSurv: A probabilistic survival-based method for early censoring-aware prediction of remaining useful life in ball bearings [39.58317527488534]
Kullback-Leibler分散とRUL推定を用いた早期故障検出のための新しいフレキシブルな手法を提案する。
我々は,XJTU-SYデータセットにおいて,3つの異なる操作条件にまたがる5倍のクロスバリデーション戦略を用いてアプローチを実証する。
提案手法は,最大荷重下での5軸受の平均累積相対精度(CRA)を0.7586で達成し,複数の最先端ベースラインを改良する。
論文 参考訳(メタデータ) (2024-05-02T16:17:29Z) - Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - Removing Spurious Features can Hurt Accuracy and Affect Groups
Disproportionately [83.68135652247496]
自然な修正は、モデルからスプリアスな特徴を取り除くことである。
誘導バイアスによる突発的特徴の除去は精度を低下させる可能性が示唆された。
また,ロバストな自己学習によって,全体的な正確性に影響を与えずにスプリアスな特徴を除去できることを示した。
論文 参考訳(メタデータ) (2020-12-07T23:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。