論文の概要: Secret mixtures of experts inside your LLM
- arxiv url: http://arxiv.org/abs/2512.18452v1
- Date: Sat, 20 Dec 2025 17:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.343337
- Title: Secret mixtures of experts inside your LLM
- Title(参考訳): LLMに専門家の秘密の混ざり合い
- Authors: Enric Boix-Adsera,
- Abstract要約: 多層パーセプトロン(MLP)はおそらくトランスアーキテクチャの最も理解されていない部分の一つである。
本稿では,これらの層がスパース計算を秘密裏に行うことを仮定して,高密度LLMモデルの層を理解することを目的とする。
- 参考スコア(独自算出の注目度): 0.11603243575080534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being one of the earliest neural network layers, the Multilayer Perceptron (MLP) is arguably one of the least understood parts of the transformer architecture due to its dense computation and lack of easy visualization. This paper seeks to understand the MLP layers in dense LLM models by hypothesizing that these layers secretly approximately perform a sparse computation -- namely, that they can be well approximated by sparsely-activating Mixture of Experts (MoE) layers. Our hypothesis is based on a novel theoretical connection between MoE models and Sparse Autoencoder (SAE) structure in activation space. We empirically validate the hypothesis on pretrained LLMs, and demonstrate that the activation distribution matters -- these results do not hold for Gaussian data, but rather rely crucially on structure in the distribution of neural network activations. Our results shine light on a general principle at play in MLP layers inside LLMs, and give an explanation for the effectiveness of modern MoE-based transformers. Additionally, our experimental explorations suggest new directions for more efficient MoE architecture design based on low-rank routers.
- Abstract(参考訳): 最初期のニューラルネットワークレイヤの1つであるにもかかわらず、Multilayer Perceptron(MLP)は、その密度の高い計算と視覚化の欠如により、トランスフォーマーアーキテクチャの最も理解されていない部分の1つである。
本論文は, 密閉LLMモデルにおけるMLP層について, これらの層が密にスパース計算を行なえることを仮定し, 疎活性化したMixture of Experts (MoE) 層によってよく近似できることを示す。
我々の仮説は、活性化空間におけるMoEモデルとスパースオートエンコーダ(SAE)構造の間の新しい理論的関係に基づいている。
我々は、事前訓練されたLLMの仮説を実証的に検証し、活性化分布が重要であることを実証する。これらの結果はガウスのデータに留まらず、むしろニューラルネットワークの活性化の分布の構造に決定的に依存する。
この結果, LLM内部のMLP層における一般的な原理に光を当て, 現代のMoE変換器の有効性を解説した。
さらに、我々は低ランクルータに基づくより効率的なMoEアーキテクチャ設計のための新しい方向性を提案する。
関連論文リスト
- Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Exploring Concept Depth: How Large Language Models Acquire Knowledge and Concept at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。
概念深さ」の概念を導入し、より複雑な概念が一般的により深い層で得られることを示唆する。
論文 参考訳(メタデータ) (2024-04-10T14:56:40Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。