論文の概要: Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder
- arxiv url: http://arxiv.org/abs/2511.05745v1
- Date: Fri, 07 Nov 2025 22:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.557848
- Title: Beyond Redundancy: Diverse and Specialized Multi-Expert Sparse Autoencoder
- Title(参考訳): 冗長性を超えて: 多様性と特殊化されたマルチスペックスパースオートエンコーダ
- Authors: Zhen Xu, Zhen Tan, Song Wang, Kaidi Xu, Tianlong Chen,
- Abstract要約: スパースオートエンコーダ(SAE)は、大規模な言語モデルを解釈するための強力なツールとして登場した。
SAEの隠蔽層は、空間的制約を満たすために高い次元性を持ち、結果として禁止的なトレーニングと推論コストをもたらす。
近年のMixture of Experts (MoE) アプローチは、SAEsによってゲートアクティベーションを持つより狭い専門家ネットワークにこの問題に対処しようとしている。
本稿では,(1)専門化を促進するために意味的に重み付けされた専門家サブセットを同時に関与する複数の専門家活性化,(2)適応的な高周波スケーリングによって多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
- 参考スコア(独自算出の注目度): 59.89996751196727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) have emerged as a powerful tool for interpreting large language models (LLMs) by decomposing token activations into combinations of human-understandable features. While SAEs provide crucial insights into LLM explanations, their practical adoption faces a fundamental challenge: better interpretability demands that SAEs' hidden layers have high dimensionality to satisfy sparsity constraints, resulting in prohibitive training and inference costs. Recent Mixture of Experts (MoE) approaches attempt to address this by partitioning SAEs into narrower expert networks with gated activation, thereby reducing computation. In a well-designed MoE, each expert should focus on learning a distinct set of features. However, we identify a \textit{critical limitation} in MoE-SAE: Experts often fail to specialize, which means they frequently learn overlapping or identical features. To deal with it, we propose two key innovations: (1) Multiple Expert Activation that simultaneously engages semantically weighted expert subsets to encourage specialization, and (2) Feature Scaling that enhances diversity through adaptive high-frequency scaling. Experiments demonstrate a 24\% lower reconstruction error and a 99\% reduction in feature redundancy compared to existing MoE-SAE methods. This work bridges the interpretability-efficiency gap in LLM analysis, allowing transparent model inspection without compromising computational feasibility.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、トークンのアクティベーションを人間の理解可能な機能の組み合わせに分解することで、大きな言語モデル(LLM)を解釈するための強力なツールとして登場した。
SAEはLSMの説明において重要な洞察を提供する一方で、それらの実践的採用は根本的な課題に直面している。
最近のMixture of Experts (MoE) アプローチでは、SAEをゲートアクティベーション付きより狭い専門家ネットワークに分割することで、計算量を削減する。
よく設計されたMoEでは、各専門家は異なる機能のセットを学ぶことに集中する必要があります。
しかし、MoE-SAEで \textit{ critical limitation} を識別する: 専門家は専門化に失敗することが多い。
そこで本研究では,(1)専門化を促進するためにセマンティックに重み付けされたエキスパートサブセットを同時に関与するマルチエキスパートアクティベーション,(2)適応型高周波スケーリングにより多様性を高める特徴スケーリングという2つの重要なイノベーションを提案する。
従来のMoE-SAE法と比較して, 再建誤差が24 %減少し, 特徴冗長性が99 %低下した。
この研究は、LLM解析における解釈可能性-効率ギャップを橋渡しし、計算可能性を損なうことなく、透過的なモデル検査を可能にする。
関連論文リスト
- One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning [52.966712416640085]
本稿では,タスク固有戦略と共有プロンプト戦略の両方の利点を統合する新しいフレームワークであるSMoPEを提案する。
SMoPEはタスク固有のプロンプトメソッドを一貫して上回り、最先端のアプローチと競合する性能を達成する。
論文 参考訳(メタデータ) (2025-09-29T08:54:58Z) - Dynamic Experts Search: Enhancing Reasoning in Mixture-of-Experts LLMs at Test Time [35.31371938688921]
テスト時間スケーリング(TTS)は、推論中にさらなる計算を割り当てることで、大規模言語モデル(LLM)の推論能力を高める。
本稿では,エキスパートアクティベーションを検索空間の制御可能な次元に高めるTTS戦略であるDynamic Experts Search (DES)を提案する。
論文 参考訳(メタデータ) (2025-09-26T16:49:10Z) - Unveiling Super Experts in Mixture-of-Experts Large Language Models [5.36587814108884]
わずかに活性化されたMixture-of-Experts(MoE)モデルは、大規模言語モデル(LLM)の学習能力を高めることを約束している。
本稿では,モデルの前方推論において,基礎となるメカニズムにおいて重要な役割を担っている専門家の別個のサブセットを初めて発見・調査する。
以上の結果から,MoE LLMはSEsに頼って注意シンクを誘導し,注意点の分布に欠かせないが,SEプルーニングによって著しく破壊されることが明らかとなった。
論文 参考訳(メタデータ) (2025-07-31T06:35:33Z) - Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations [86.90549830760513]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
多様な視点から専門家の重要度を推定するためのベンチマークとして,MoE Experts Compression Suite (MC-Suite)を提案する。
我々は,SMoEsの指示追従能力が主に損なわれるという,実験的に検証された予想を提示する。
論文 参考訳(メタデータ) (2025-04-08T00:49:08Z) - Mixture of Experts Made Intrinsically Interpretable [34.36996159677674]
我々は,emphintrinsically interpretableとして設計されたMixture-of-Experts (MoE)言語モデルである textbfMoE-X を提案する。
我々のアプローチは、言語モデルにおいて、スパースアクティベーションを持つより広いネットワークが解釈可能な要因を捉える傾向にあるという観察に動機づけられている。
MoE-X は GPT-2 よりもパープレキシティが良く、解釈性はスパースオートエンコーダ (SAE) ベースのアプローチを超えている。
論文 参考訳(メタデータ) (2025-03-05T17:40:54Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。