論文の概要: Binary Autoencoder for Mechanistic Interpretability of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.20997v1
- Date: Thu, 25 Sep 2025 10:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.849215
- Title: Binary Autoencoder for Mechanistic Interpretability of Large Language Models
- Title(参考訳): 大規模言語モデルの機械的解釈性のためのバイナリオートエンコーダ
- Authors: Hakaze Cho, Haolin Yang, Brian M. Kurkoski, Naoya Inoue,
- Abstract要約: 隠れアクティベーションのミニバッチに最小エントロピーを強制する新しいバイナリオートエンコーダを提案する。
効率的なエントロピー計算のために、ステップ関数を介して隠れたアクティベーションを1ビットに識別する。
我々は、大規模言語モデルの推論力学を経験的に評価し、活用する。
- 参考スコア(独自算出の注目度): 8.725176890854065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing works are dedicated to untangling atomized numerical components (features) from the hidden states of Large Language Models (LLMs) for interpreting their mechanism. However, they typically rely on autoencoders constrained by some implicit training-time regularization on single training instances (i.e., $L_1$ normalization, top-k function, etc.), without an explicit guarantee of global sparsity among instances, causing a large amount of dense (simultaneously inactive) features, harming the feature sparsity and atomization. In this paper, we propose a novel autoencoder variant that enforces minimal entropy on minibatches of hidden activations, thereby promoting feature independence and sparsity across instances. For efficient entropy calculation, we discretize the hidden activations to 1-bit via a step function and apply gradient estimation to enable backpropagation, so that we term it as Binary Autoencoder (BAE) and empirically demonstrate two major applications: (1) Feature set entropy calculation. Entropy can be reliably estimated on binary hidden activations, which we empirically evaluate and leverage to characterize the inference dynamics of LLMs and In-context Learning. (2) Feature untangling. Similar to typical methods, BAE can extract atomized features from LLM's hidden states. To robustly evaluate such feature extraction capability, we refine traditional feature-interpretation methods to avoid unreliable handling of numerical tokens, and show that BAE avoids dense features while producing the largest number of interpretable ones among baselines, which confirms the effectiveness of BAE serving as a feature extractor.
- Abstract(参考訳): 既存の作業は、そのメカニズムを解釈するために、大規模言語モデル(LLM)の隠れ状態から原子化数値成分(機能)を解き放つことを目的としている。
しかし、それらは通常、単一のトレーニングインスタンス(例えば$L_1$正規化、トップ-k関数など)で暗黙のトレーニング時間正規化によって制約されるオートエンコーダに依存し、インスタンス間のグローバルな疎結合を明示的に保証せず、大量の(同時に不活性な)機能を引き起こし、特徴の疎結合や原子化を損なう。
本稿では,隠れたアクティベーションのミニバッチに最小エントロピーを強制し,インスタンス間の特徴独立性とスパーシリティを促進する,新しいオートエンコーダ変種を提案する。
効率的なエントロピー計算のために,ステップ関数を用いて隠れたアクティベーションを1ビットに識別し,勾配推定を適用してバックプロパゲーションを実現し,これをバイナリオートエンコーダ(BAE)と呼び,(1)特徴集合エントロピー計算という2つの主要な応用を実証的に示す。
エントロピーは二項隠れアクティベーションに基づいて確実に推定でき、LLMとインコンテクスト学習の推論ダイナミクスを実験的に評価し、活用する。
(2)特徴の解消。
典型的な方法と同様に、BAEはLLMの隠された状態から原子化された特徴を抽出することができる。
このような特徴抽出能力を確実に評価するために,従来の特徴解釈法を改良して数値トークンの信頼性の低い処理を回避し,ベースライン間で最も多くの解釈可能な特徴を発生させながら密度の高い特徴を回避し,特徴抽出器としてのBAEの有効性を確認した。
関連論文リスト
- pQuant: Towards Effective Low-Bit Language Models via Decoupled Linear Quantization-Aware Training [24.05577787968274]
pQuantは、線形層を2つの特別な枝に分割することでパラメータを分離する手法である。
pQuantは極低ビット量子化において最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-02-26T03:51:58Z) - Sparse Semantic Dimension as a Generalization Certificate for LLMs [53.681678236115836]
Sparse Semantic Dimension (SSD)は,モデル層上で訓練されたSparse Autoencoder (SAE)のアクティブな特徴語彙から導かれる複雑性尺度である。
我々はGPT-2 Small と Gemma-2B でこの枠組みを検証し、実際のサンプルサイズで非空き証明書を提供することを実証した。
論文 参考訳(メタデータ) (2026-02-11T21:45:18Z) - Equivariant Evidential Deep Learning for Interatomic Potentials [55.6997213490859]
不確かさの定量化は、分子動力学シミュレーションにおける機械学習の原子間ポテンシャルの信頼性を評価するために重要である。
既存のMLIPのUQアプローチは、高い計算コストや準最適性能によって制限されることが多い。
我々は,原子間ポテンシャルの定量的深層学習(texte2$IP)を提案する。
論文 参考訳(メタデータ) (2026-02-11T02:00:25Z) - Statistical Inference for Explainable Boosting Machines [5.01181440341076]
説明可能なブースティングマシン(EBM)は、各機能の効果を視覚化した一般的な"グラスボックス"モデルである。
本稿では,近年の統計的推論による勾配向上,統計的推論の手法の導出,およびエンドツーエンドの理論的保証について提案する。
論文 参考訳(メタデータ) (2026-01-26T17:51:09Z) - Mechanistic Knobs in LLMs: Retrieving and Steering High-Order Semantic Features via Sparse Autoencoders [8.188989044347595]
意味論的に解釈可能な内部特徴の検索とステアリングのためのスパースオートエンコーダベースのフレームワークを提案する。
本研究では,ビッグファイブの性格特性をケーススタディとして用いて,モデル行動の正確かつ双方向なステアリングを可能にすることを実証する。
論文 参考訳(メタデータ) (2026-01-06T12:40:37Z) - Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder [59.89996751196727]
スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T22:19:34Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。