論文の概要: More Expressive Feedforward Layers: Part I. Token-Adaptive Mixing of Activations
- arxiv url: http://arxiv.org/abs/2605.26647v1
- Date: Tue, 26 May 2026 07:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.729917
- Title: More Expressive Feedforward Layers: Part I. Token-Adaptive Mixing of Activations
- Title(参考訳): もっと表現力のあるフィードフォワード層:その1. 活性化のToken-Adaptive Mixing
- Authors: Mingze Wang, Jinbo Wang, Yikuan Xia, Kai Shen, Shu Zhong,
- Abstract要約: 本稿では,軽量な入力依存ゲートを用いて,アクティベーション関数の辞書を混合したトークン適応型FFN設計を提案する。
MoAは一貫して端末の損失を減らし、よく調整されたベースラインよりも優れたスケーリング動作を示す。
これらの結果から,トークン適応型アクティベーションミキシングは,大規模言語モデルにおいてFFN表現性を向上させるためのシンプルかつ効果的なメカニズムであることが示唆された。
- 参考スコア(独自算出の注目度): 16.610720814187754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feedforward network (FFN) layers account for a large fraction of parameters and nonlinear expressivity in Transformer-based large language models (LLMs). Despite the evolution from ReLU and GELU to gated variants such as SwiGLU, most FFN designs still use a single fixed activation function, applying the same nonlinear transformation to all tokens. In this work, we propose Mixture of Activations (MoA), a token-adaptive FFN design that mixes a dictionary of activation functions using lightweight input-dependent gates while sharing the same linear projections. As an input-independent counterpart, we also introduce learnable activations (LA), which form linear combinations of activation functions for both ReLU-type and SwiGLU-type FFNs. Theoretically, we establish strict finite-width expressive separations among fixed-activation FFNs, LA, and MoA: LA strictly contains fixed-activation FFNs, while MoA strictly contains LA, with the additional expressivity arising from input-dependent nonlinear hybridization. Empirically, we evaluate MoA through extensive pre-training experiments on dense and MoE language models ranging from 0.12B to 2B parameters under different token budgets, optimizers, and learning rate schedules. MoA consistently achieves lower terminal loss and exhibits more favorable scaling behavior than well-tuned baselines, with minimal parameter and computational overhead. These results suggest that token-adaptive activation mixing is a simple and effective mechanism for improving FFN expressivity in LLMs.
- Abstract(参考訳): フィードフォワードネットワーク(FFN)層は、トランスフォーマーベースの大規模言語モデル(LLM)において、パラメータと非線形表現率の大きな部分を占める。
ReLU や GELU から SwiGLU のようなゲート型への進化にもかかわらず、ほとんどの FFN の設計は依然として1つの固定活性化関数を使い、全てのトークンに同じ非線形変換を適用している。
本研究では,トークン適応型FFN設計であるMixture of Activations (MoA)を提案する。
入力非依存型として学習可能なアクティベーション(LA)を導入し,ReLU型とSwiGLU型両方のFFNの活性化関数を線形に組み合わせた。
理論的には、固定活性化FFN、LA、MoA間の厳密な有限幅表現的分離を確立する。
実験的に,トークン予算,オプティマイザ,学習率スケジュールの異なる0.12Bから2Bパラメータの高密度および高密度のMoE言語モデルに対する事前学習実験を通じて,MoAを評価する。
MoAは一貫して端末の損失を減らし、パラメータと計算オーバーヘッドを最小限に抑えながら、よく調整されたベースラインよりも優れたスケーリング動作を示す。
以上の結果から,トークン適応活性化混合はLLMのFFN発現性を向上させるための単純かつ効果的な機構であることが示唆された。
関連論文リスト
- NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks [2.8232103900765693]
フィードフォワードネットワーク(FFN)が高次元潜在空間における情報フローをどのように制御するかを理解するための統一的な赤外フレームワークであるNerVEを紹介する。
NerVEは、4つの相補的なジオメトリによる固有ダイナミクスの軽量でメモリ効率のよい追跡を通じて、このギャップに対処する。
論文 参考訳(メタデータ) (2026-03-06T22:50:43Z) - FreeAct: Freeing Activations for LLM Quantization [89.97086263978058]
量子化は、大規模言語モデルの重要なメモリと計算オーバーヘッドを軽減するために重要である。
FreeActは静的な1対1の制約を緩和し、動的アクティベーションの格差を緩和する新しい量子化フレームワークである。
dLLMとMLLMでの実験では、FreeActはベースラインを大幅に上回り、パフォーマンスは最大5.3%向上した。
論文 参考訳(メタデータ) (2026-03-02T12:02:17Z) - LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model [77.66516875262963]
マルチモーダル理解・生成のための有効長適応オムニ拡散モデルである textbfLLaDA-o を提案する。
MoD上に構築されたデータ中心長適応戦略により,マルチモーダル環境でのフレキシブルなデコーディングを実現する。
実験により、LLaDA-oはマルチモーダル理解および生成ベンチマーク上でのオムニ拡散モデル間の最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2026-03-01T12:05:06Z) - WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。
いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。
結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文 参考訳(メタデータ) (2025-11-30T16:17:34Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - DiffoRA: Enabling Parameter-Efficient Fine-Tuning via Differential Module Selection [32.369133126167085]
Low-Rank Adaptation (LoRA) は、既存のトレーニング済みモデルに低ランク行列を組み込むことで、その合理化設計で人気を博している。
本稿では,低ランク分解行列を適応的に適用可能なDiffoRAを提案する。
論文 参考訳(メタデータ) (2025-02-13T02:41:34Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。