論文の概要: AdaptiveK Sparse Autoencoders: Dynamic Sparsity Allocation for Interpretable LLM Representations
- arxiv url: http://arxiv.org/abs/2508.17320v1
- Date: Sun, 24 Aug 2025 12:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.464834
- Title: AdaptiveK Sparse Autoencoders: Dynamic Sparsity Allocation for Interpretable LLM Representations
- Title(参考訳): アダプティブKスパースオートエンコーダ:解釈可能なLLM表現のための動的空間割当
- Authors: Yifei Yao, Mengnan Du,
- Abstract要約: 提案するAdaptive Top K Sparse Autoencoders (AdaptiveK) は,各入力のセマンティック複雑性に基づいて空間レベルを動的に調整する新しいフレームワークである。
この複雑性駆動型適応は、再構成忠実度、説明分散、コサイン類似度指標において、固定スパーシティーアプローチを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 28.447024168930984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the internal representations of large language models (LLMs) remains a central challenge for interpretability research. Sparse autoencoders (SAEs) offer a promising solution by decomposing activations into interpretable features, but existing approaches rely on fixed sparsity constraints that fail to account for input complexity. We propose Adaptive Top K Sparse Autoencoders (AdaptiveK), a novel framework that dynamically adjusts sparsity levels based on the semantic complexity of each input. Leveraging linear probes, we demonstrate that context complexity is linearly encoded in LLM representations, and we use this signal to guide feature allocation during training. Experiments across three language models (Pythia-70M, Pythia-160M, and Gemma-2-2B) demonstrate that this complexity-driven adaptation significantly outperforms fixed-sparsity approaches on reconstruction fidelity, explained variance, and cosine similarity metrics while eliminating the computational burden of extensive hyperparameter tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)の内部表現を理解することは、解釈可能性研究における中心的な課題である。
スパースオートエンコーダ(SAE)は、アクティベーションを解釈可能な機能に分解することで、有望なソリューションを提供する。
提案するAdaptive Top K Sparse Autoencoders (AdaptiveK) は,各入力のセマンティック複雑性に基づいて空間レベルを動的に調整する新しいフレームワークである。
線形プローブを利用して,LLM表現にコンテキスト複雑性が線形に符号化されることを実証し,この信号を用いてトレーニング中の特徴割り当てを導出する。
3つの言語モデル(Pythia-70M, Pythia-160M, Gemma-2-2B)における実験により、この複雑性駆動型適応は、広範囲なハイパーパラメータチューニングの計算負担を排除しつつ、再構成フィディリティ、説明分散、コサイン類似度メトリクスの固定スパーシティアプローチを著しく上回ることを示した。
関連論文リスト
- CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。
当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。
モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文 参考訳(メタデータ) (2025-08-04T08:28:25Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Steered Generation via Gradient Descent on Sparse Features [1.534667887016089]
クエリ埋め込みのスパース表現を学習するために、スパースオートエンコーダを訓練することにより、大言語モデル(LLM)の内部構造を変更する。
このスパース表現の操作は、出力を異なるスタイル的および認知的目標に向けて効果的に変換することを実証する。
論文 参考訳(メタデータ) (2025-02-25T21:06:14Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。