論文の概要: Binary Autoencoder for Mechanistic Interpretability of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.20997v1
- Date: Thu, 25 Sep 2025 10:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.849215
- Title: Binary Autoencoder for Mechanistic Interpretability of Large Language Models
- Title(参考訳): 大規模言語モデルの機械的解釈性のためのバイナリオートエンコーダ
- Authors: Hakaze Cho, Haolin Yang, Brian M. Kurkoski, Naoya Inoue,
- Abstract要約: 隠れアクティベーションのミニバッチに最小エントロピーを強制する新しいバイナリオートエンコーダを提案する。
効率的なエントロピー計算のために、ステップ関数を介して隠れたアクティベーションを1ビットに識別する。
我々は、大規模言語モデルの推論力学を経験的に評価し、活用する。
- 参考スコア(独自算出の注目度): 8.725176890854065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing works are dedicated to untangling atomized numerical components (features) from the hidden states of Large Language Models (LLMs) for interpreting their mechanism. However, they typically rely on autoencoders constrained by some implicit training-time regularization on single training instances (i.e., $L_1$ normalization, top-k function, etc.), without an explicit guarantee of global sparsity among instances, causing a large amount of dense (simultaneously inactive) features, harming the feature sparsity and atomization. In this paper, we propose a novel autoencoder variant that enforces minimal entropy on minibatches of hidden activations, thereby promoting feature independence and sparsity across instances. For efficient entropy calculation, we discretize the hidden activations to 1-bit via a step function and apply gradient estimation to enable backpropagation, so that we term it as Binary Autoencoder (BAE) and empirically demonstrate two major applications: (1) Feature set entropy calculation. Entropy can be reliably estimated on binary hidden activations, which we empirically evaluate and leverage to characterize the inference dynamics of LLMs and In-context Learning. (2) Feature untangling. Similar to typical methods, BAE can extract atomized features from LLM's hidden states. To robustly evaluate such feature extraction capability, we refine traditional feature-interpretation methods to avoid unreliable handling of numerical tokens, and show that BAE avoids dense features while producing the largest number of interpretable ones among baselines, which confirms the effectiveness of BAE serving as a feature extractor.
- Abstract(参考訳): 既存の作業は、そのメカニズムを解釈するために、大規模言語モデル(LLM)の隠れ状態から原子化数値成分(機能)を解き放つことを目的としている。
しかし、それらは通常、単一のトレーニングインスタンス(例えば$L_1$正規化、トップ-k関数など)で暗黙のトレーニング時間正規化によって制約されるオートエンコーダに依存し、インスタンス間のグローバルな疎結合を明示的に保証せず、大量の(同時に不活性な)機能を引き起こし、特徴の疎結合や原子化を損なう。
本稿では,隠れたアクティベーションのミニバッチに最小エントロピーを強制し,インスタンス間の特徴独立性とスパーシリティを促進する,新しいオートエンコーダ変種を提案する。
効率的なエントロピー計算のために,ステップ関数を用いて隠れたアクティベーションを1ビットに識別し,勾配推定を適用してバックプロパゲーションを実現し,これをバイナリオートエンコーダ(BAE)と呼び,(1)特徴集合エントロピー計算という2つの主要な応用を実証的に示す。
エントロピーは二項隠れアクティベーションに基づいて確実に推定でき、LLMとインコンテクスト学習の推論ダイナミクスを実験的に評価し、活用する。
(2)特徴の解消。
典型的な方法と同様に、BAEはLLMの隠された状態から原子化された特徴を抽出することができる。
このような特徴抽出能力を確実に評価するために,従来の特徴解釈法を改良して数値トークンの信頼性の低い処理を回避し,ベースライン間で最も多くの解釈可能な特徴を発生させながら密度の高い特徴を回避し,特徴抽出器としてのBAEの有効性を確認した。
関連論文リスト
- Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。