論文の概要: MossNet: Mixture of State-Space Experts is a Multi-Head Attention
- arxiv url: http://arxiv.org/abs/2510.26182v1
- Date: Thu, 30 Oct 2025 06:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.685085
- Title: MossNet: Mixture of State-Space Experts is a Multi-Head Attention
- Title(参考訳): MossNet: 状態空間の専門家の混在は多面的注意
- Authors: Shikhar Tuli, James Seale Smith, Haris Jeelani, Chi-Heng Lin, Abhishek Patel, Vasili Ramanishka, Yen-Chang Hsu, Hongxia Jin,
- Abstract要約: MossNetは、線形多面的注意をエミュレートする、状態-空間-専門家の混合アーキテクチャである。
MossNetは、モデルサイズとデータ予算に類似したトランスフォーマーとSSMベースのアーキテクチャの両方を上回ります。
- 参考スコア(独自算出の注目度): 35.65935242119942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have significantly advanced generative applications in natural language processing (NLP). Recent trends in model architectures revolve around efficient variants of transformers or state-space/gated-recurrent models (SSMs, GRMs). However, prevailing SSM/GRM-based methods often emulate only a single attention head, potentially limiting their expressiveness. In this work, we propose MossNet, a novel mixture-of-state-space-experts architecture that emulates a linear multi-head attention (MHA). MossNet leverages a mixture-of-experts (MoE) implementation not only in channel-mixing multi-layered perceptron (MLP) blocks but also in the time-mixing SSM kernels to realize multiple "attention heads." Extensive experiments on language modeling and downstream evaluations show that MossNet outperforms both transformer- and SSM-based architectures of similar model size and data budgets. Larger variants of MossNet, trained on trillions of tokens, further confirm its scalability and superior performance. In addition, real-device profiling on a Samsung Galaxy S24 Ultra and an Nvidia A100 GPU demonstrate favorable runtime speed and resource usage compared to similarly sized baselines. Our results suggest that MossNet is a compelling new direction for efficient, high-performing recurrent LLM architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理(NLP)においてかなり高度な生成的応用を持つ。
モデルアーキテクチャの最近のトレンドは、トランスや状態空間/ゲート-リカレントモデル(SSM、GRM)の効率的な変種を中心に展開している。
しかし、一般的なSSM/GRMベースの手法は、しばしば単一の注意頭のみをエミュレートし、表現性を制限する可能性がある。
本研究では,線形マルチヘッドアテンション(MHA)をエミュレートする新しい混合状態空間エキスパートアーキテクチャであるMossNetを提案する。
MossNetは、マルチ層パーセプトロン(MLP)ブロックだけでなく、タイムミキシングのSSMカーネルで複数の「アテンションヘッド」を実現するために、Mix-of-experts(MoE)実装を利用している。
言語モデリングとダウンストリーム評価に関する大規模な実験は、MossNetがトランスフォーマーとSSMベースのアーキテクチャの両方で、同様のモデルサイズとデータ予算で優れていることを示している。
数十兆のトークンでトレーニングされたMossNetの大きなバリエーションは、そのスケーラビリティと優れたパフォーマンスをさらに確認している。
さらに、Samsung Galaxy S24 UltraとNvidia A100 GPUの実際のデバイスプロファイリングは、同様のサイズのベースラインと比較して、実行速度とリソース使用量に好適であることを示している。
この結果から,MossNetは高効率かつ高性能なLLMアーキテクチャを実現する上で,魅力的な新たな方向性であることが示唆された。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。
注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。
その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文 参考訳(メタデータ) (2024-04-15T07:24:45Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - DenseMamba: State Space Models with Dense Hidden Connection for
Efficient Large Language Models [44.260111709174055]
本稿では,SSM層間の隠れ情報の流れを改善する新しい手法であるDenseSSMを紹介する。
同様のモデルサイズで、DenseSSMは、DenseRetNetが示すように、公開ベンチマークで最大5%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-02-26T09:21:59Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - MossFormer: Pushing the Performance Limit of Monaural Speech Separation
using Gated Single-Head Transformer with Convolution-Augmented Joint
Self-Attentions [26.862052778354016]
畳み込み強化された自己アテンションを持つシングルヘッドゲートトランスアーキテクチャであるtextitMossFormer を提案する。
MossFormer は、WSJ0-2/3mix と WHAM!
論文 参考訳(メタデータ) (2023-02-23T07:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。