論文の概要: Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2503.05447v1
- Date: Fri, 07 Mar 2025 14:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:09.971774
- Title: Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts
- Title(参考訳): Linear-MoE:Linear Sequence ModelingがMixture-of-Expertsを発表
- Authors: Weigao Sun, Disen Lan, Tong Zhu, Xiaoye Qu, Yu Cheng,
- Abstract要約: 我々は,LSMとMoEを統合する大規模モデルのモデリングとトレーニングを行う,生産レベルのシステムであるLinear-MoEを紹介する。
1)LSMのすべてのインスタンスをサポートする統一されたフレームワークを提供するモデリングサブシステムと,2)様々な高度な並列処理技術を組み込んだ効率的なトレーニングを支援するトレーニングサブシステムとから構成される。
- 参考スコア(独自算出の注目度): 18.92161797766718
- License:
- Abstract: Linear Sequence Modeling (LSM) like linear attention, state space models and linear RNNs, and Mixture-of-Experts (MoE) have recently emerged as significant architectural improvements. In this paper, we introduce Linear-MoE, a production-level system for modeling and training large-scale models that integrate LSM with MoE. Linear-MoE leverages the advantages of both LSM modules for linear-complexity sequence modeling and MoE layers for sparsely activation, aiming to offer high performance with efficient training. The Linear-MoE system comprises: 1) Modeling subsystem, which provides a unified framework supporting all instances of LSM. and 2) Training subsystem, which facilitates efficient training by incorporating various advanced parallelism technologies, particularly Sequence Parallelism designed for Linear-MoE models. Additionally, we explore hybrid models that combine Linear-MoE layers with standard Transformer-MoE layers with its Sequence Parallelism to further enhance model flexibility and performance. Evaluations on two model series, A0.3B-2B and A1B-7B, demonstrate Linear-MoE achieves efficiency gains while maintaining competitive performance on various benchmarks, showcasing its potential as a next-generation foundational model architecture. Code: https://github.com/OpenSparseLLMs/Linear-MoE.
- Abstract(参考訳): 線形アテンション、状態空間モデル、線形RNN、Mixture-of-Experts (MoE)のような線形シーケンスモデリング(LSM)は、近年、重要なアーキテクチャ改善として現れている。
本稿では,LSMとMoEを統合した大規模モデルのモデリングとトレーニングを行うLinear-MoEを紹介する。
Linear-MoEは、線形複雑配列モデリングのためのLSMモジュールと、疎活性化のためのMoE層の両方の利点を生かし、効率的なトレーニングで高性能を提供することを目指している。
Linear-MoE システムは:
1) LSMの全インスタンスをサポートする統一フレームワークを提供するモデリングサブシステム。
そして
2) 様々な高度な並列処理技術,特に線形-MoEモデル用に設計された逐次並列処理を組み込むことにより,効率的な訓練を支援する訓練サブシステム。
さらに,Linear-MoE層と標準Transformer-MoE層とSequence Parallelismを組み合わせたハイブリッドモデルについて検討し,モデルの柔軟性と性能をさらに向上させる。
2つのモデルシリーズ A0.3B-2B と A1B-7B の評価は、Linear-MoE が様々なベンチマーク上での競争性能を維持しながら効率向上を達成することを示した。
コード:https://github.com/OpenSparseLLMs/Linear-MoE。
関連論文リスト
- Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Learnable & Interpretable Model Combination in Dynamical Systems Modeling [0.0]
この研究は、動的システムモデリングにおいて、どのタイプのモデルが通常結合されるかを簡単に議論する。
本稿では,混合代数的,離散的,微分方程式に基づくモデルを表現可能なモデルのクラスを提案する。
最後に,モデルの任意の組み合わせを,容易に解釈可能な方法で記述できる新しいワイルドカードアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:17:11Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Jointly Training Large Autoregressive Multimodal Models [37.32912103934043]
本稿では,既存のテキストと画像生成モデルを体系的に融合するモジュール方式であるJAMフレームワークを提案する。
また、混合モーダル生成タスクに適した、特殊的でデータ効率の高い命令チューニング戦略も導入する。
最後のインストラクションチューニングモデルは、高品質なマルチモーダル出力を生成する際の非並列性能を示す。
論文 参考訳(メタデータ) (2023-09-27T10:40:23Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - ModLaNets: Learning Generalisable Dynamics via Modularity and Physical
Inductive Bias [14.474273671369584]
モジュラリティと物理的帰納バイアスを有する構造的ニューラルネットワークフレームワークを提案する。
このフレームワークはモジュラリティを用いて各要素のエネルギーをモデル化し、ラグランジュ力学を介して対象の力学系を構築する。
トレーニングデータセットの小さい二重振り子または3体システムのモデリングフレームワークについて検討する。
論文 参考訳(メタデータ) (2022-06-24T14:54:25Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。