論文の概要: Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget
- arxiv url: http://arxiv.org/abs/2603.03459v1
- Date: Tue, 03 Mar 2026 19:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.062804
- Title: Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget
- Title(参考訳): 非線形性の半分は無駄にされる:トランスフォーマーのMLP予算の測定と再配置
- Authors: Peter Balogh,
- Abstract要約: 変圧器の非線形性が実際に必要である場合について検討する。
d+1$パラメータを持つゲートは、フルをリニアサロゲートに置き換えるタイミングを決定する。
トークンの同一性から非線形性を予測できないことが分かる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate when transformer MLP nonlinearity is actually necessary. A gate with $d+1$ parameters decides when to replace the full MLP with a linear surrogate. Through systematic investigation across six models (162M-2.8B parameters), two architectures, and three corpora, we establish that nonlinearity need cannot be predicted from token identity: cross-corpus correlation is zero ($r < 0.05$). The routing decision is fully contextual. Despite weak per-instance predictability, the gate exploits a heavily skewed distribution where most MLP computations are near-linear, achieving 25-56% linear routing at <1% perplexity cost in GPT-2. In GPT-2 Large, 11 of 36 layers beat baseline with gating and no layer exceeds 3.7% all-linear cost. This success is architecture-dependent: Pythia models show higher costs, though Pythia-2.8B's full 32-layer sweep reveals one layer that narrowly beats baseline. As a proof of concept, we progressively replace middle-layer MLPs with frozen linear matrices: 5 of 24 layers linearize at zero cost. With a full training budget, 4 linearized layers yield a 10.2% perplexity improvement -- and a two-phase gated approach pushes this to 17.3%, beating a vanilla fine-tuning control and confirming that the nonlinear MLPs at these layers were actively harmful.
- Abstract(参考訳): 変圧器のMLP非線形性が実際に必要である場合について検討する。
$d+1$パラメータを持つゲートは、完全なMLPをリニアサロゲートに置き換えるタイミングを決定する。
6つのモデル(162M-2.8Bパラメータ)、2つのアーキテクチャ、3つのコーパスの体系的な調査により、トークンの同一性から非線形性を予測できないことが判明した: クロスコーパス相関はゼロ(r < 0.05$)である。
ルーティングの決定は、完全にコンテキスト的です。
不安定なインスタンスごとの予測性にもかかわらず、ゲートは、ほとんどのMLP計算がほぼ直線的であり、GPT-2の1%パープレキシティコストで25~56%の線形ルーティングを実現している、非常に歪んだ分布を利用する。
GPT-2 大型の36層のうち11層はゲーティングでベースラインを破り、全線費用の3.7%を超えない。
この成功はアーキテクチャに依存しており、Pythiaモデルはより高いコストを示すが、Pythia-2.8Bのフル32層スイープはベースラインをわずかに上回っている。
概念実証として,24層のうち5層はゼロコストで線形化され,中間層MLPを凍結線形行列に徐々に置き換える。
完全なトレーニング予算で、4つの線形化されたレイヤが10.2%のパープレキシティ改善を達成し、2フェーズのゲートアプローチがこれを17.3%にプッシュし、バニラの微調整コントロールを破り、これらのレイヤの非線形MLPがアクティブに有害であることを確認した。
関連論文リスト
- Revisiting Weighted Strategy for Non-stationary Parametric Bandits and MDPs [56.246783503873225]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
本稿では,ウィンドウ/リスタートベースアルゴリズムと同様に,より単純な重みに基づくアルゴリズムを提案する。
我々のフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2026-01-03T04:50:21Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models [33.90597962418094]
大規模言語モデルのための新しい連続層プルーニングフレームワークであるCLPを提案する。
CLPは、プルーニングに最適な連続層セグメントを自動的に識別する、微分可能な凹面ゲートアルゴリズムを使用している。
CLPは量子化とシームレスに結合して、わずかな性能損失だけでモデルをさらに圧縮することができる。
論文 参考訳(メタデータ) (2025-10-25T16:40:17Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - One Step of Gradient Descent is Provably the Optimal In-Context Learner
with One Layer of Linear Self-Attention [31.522320487765878]
最近の研究は、文脈内学習を実証的に分析している。
線形自己アテンションを持つ一層変圧器は勾配降下の一段階を実装することを学習する。
論文 参考訳(メタデータ) (2023-07-07T13:09:18Z) - TriMLP: Revenge of a MLP-like Architecture in Sequential Recommendation [23.32537260687907]
本稿では,TriMLPという逐次レコメンデーションのためのシーケンシャルなアーキテクチャと,クロストークン通信のための新しい三角形ミキサーを提案する。
三角ミキサーの設計において,基本行列乗算としてのクロストケン操作のイナシイを単純化し,重み行列の下方三角形ニューロンを落として,反時間次接続を将来のトークンからブロックする。
論文 参考訳(メタデータ) (2023-05-24T03:32:31Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - PlueckerNet: Learn to Register 3D Line Reconstructions [57.20244406275875]
本稿では,ユークリッド空間における2つの部分重畳された3次元線再構成の問題をニューラルネットワークで解く手法を提案する。
室内および屋外の両方のデータセットを用いた実験により,本手法の登録精度(回転と翻訳)は,ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-02T11:31:56Z) - From Two-Class Linear Discriminant Analysis to Interpretable Multilayer
Perceptron Design [31.446335485087758]
2クラス線形判別式解析(LDA)における閉形式解の存在
多層パーセプトロン(MLP)を2クラスLDAシステムの一般化として解釈する。
フィードフォワードのワンパス方式でネットワークアーキテクチャと全フィルタ重みを指定できる自動設計を提案する。
論文 参考訳(メタデータ) (2020-09-09T17:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。