論文の概要: Unifying Mixture of Experts and Multi-Head Latent Attention for Efficient Language Models
- arxiv url: http://arxiv.org/abs/2508.01261v1
- Date: Sat, 02 Aug 2025 08:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.79112
- Title: Unifying Mixture of Experts and Multi-Head Latent Attention for Efficient Language Models
- Title(参考訳): 効率的な言語モデルのためのエキスパートの混在とマルチヘッド潜在意識の統合
- Authors: Sushant Mehta, Raj Dandekar, Rajat Dandekar, Sreedath Panat,
- Abstract要約: MoE-MLA-RoPEは、Mixture of Experts (MoE)とMulti-head Latent Attention (MLA)とRotary Position Embeddings (RoPE)を組み合わせた、効率的な言語モデリングのための新しいアーキテクチャの組み合わせである。
提案手法は,3つの重要なイノベーションを通じて,モデル容量と計算効率の基本的なトレードオフに対処する。
- 参考スコア(独自算出の注目度): 1.7272658301768147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MoE-MLA-RoPE, a novel architecture combination that combines Mixture of Experts (MoE) with Multi-head Latent Attention (MLA) and Rotary Position Embeddings (RoPE) for efficient language modeling. Our approach addresses the fundamental trade-off between model capacity and computational efficiency through three key innovations: (1) fine-grained expert routing with 64 micro-experts and top-$k$ selection, enabling flexible specialization through 3.6 * 10^7 possible expert combinations; (2) shared expert isolation that dedicates 2 always active experts for common patterns while routing to 6 of 62 specialized experts; and (3) gradient-conflict-free load balancing that maintains expert utilization without interfering with primary loss optimization. Extensive experiments on models ranging from 17M to 202M parameters demonstrate that MoE-MLA-RoPE with compression ratio r=d/2 achieves 68% KV cache memory reduction and 3.2x inference speedup while maintaining competitive perplexity (0.8% degradation). Compared to the parameters with 53.9M parameters, MoE-MLA-RoPE improves the validation loss by 6.9% over the vanilla transformers while using 42% fewer active parameters per forward pass. FLOP-matched experiments reveal even larger gains: 11.1% improvement with 3.2x inference acceleration. Automated evaluation using GPT-4 as a judge confirms quality improvements in generation, with higher scores on coherence (8.1/10), creativity (7.9/10) and grammatical correctness (8.2/10). Our results establish that architectural novelty, not parameter scaling, defines the efficiency frontier for resource-constrained language model deployment.
- Abstract(参考訳): 提案するMoE-MLA-RoPEは,Multi-head Latent Attention (MLA)とRotary Position Embeddings (RoPE)を組み合わせて,効率的な言語モデリングを行う。
提案手法は,モデルキャパシティと計算効率の基本的なトレードオフを,(1)64マイクロエキスパートによるきめ細かなエキスパートルーティングと,3.6×10^7の可能なエキスパート組み合わせによる柔軟なスペシャライゼーションを実現するトップ$k選択,(2)62専門専門家の6つにルーティングしながら,共通のパターンに対して常にアクティブな専門家を配置する共有専門家分離,(3)一次損失最適化を介さずにエキスパート利用を継続するグラディショナル・コンフリクトフリーなロードバランシング,という3つの重要なイノベーションを通じて解決する。
圧縮比r=d/2のMoE-MLA-RoPEによる17Mから202Mパラメータのモデルに対する大規模な実験により、競合パープレキシティ(0.8%劣化)を維持しながら、68%のKVキャッシュメモリの削減と3.2倍の推論スピードアップを達成した。
53.9Mパラメータのパラメータと比較すると、MoE-MLA-RoPEはバニラ変圧器のバリデーション損失を6.9%改善し、フォワードパスあたりのアクティブパラメータは42%減少した。
11.1%の改善と3.2倍の推論加速である。
GPT-4を審査員として用いた自動評価は、コヒーレンス(8.1/10)、クリエイティビティ(7.9/10)、文法的正しさ(8.2/10)に高いスコアで、世代ごとの品質向上を確認する。
この結果から,パラメータスケーリングではなく,アーキテクチャの新規性によって,資源制約付き言語モデル展開の効率化のフロンティアが定義されることがわかった。
関連論文リスト
- Latent Prototype Routing: Achieving Near-Perfect Load Balancing in Mixture-of-Experts [0.0]
Latent Prototype Routing (LPR)は、下流のパフォーマンスを損なうことなく、専門家のバランスのとれた利用を促進する新しいルーティングフレームワークである。
LPRは、専門家負荷のジーニ係数を平均0.70から0.035に減らし、専門家負荷比を1e-6から0.070に改善し、ほぼ完全な負荷分散を実現する。
論文 参考訳(メタデータ) (2025-06-26T14:41:18Z) - LoRA-Mixer: Coordinate Modular LoRA Experts Through Serial Attention Routing [17.171872354057694]
LoRA-Mixerはモジュール式で軽量なMoEフレームワークであり、LoRAの専門家を統合している。
私たちの中心となるイノベーションは、アテンションモジュールの入出力線形レイヤのプロジェクション行列をタスク固有のLoRA専門家に置き換えることです。
LoRA-Mixerは、GSM8K、HumanEval、MedQAといったデータセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-06-17T14:58:54Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - DynMoLE: Boosting Mixture of LoRA Experts Fine-Tuning with a Hybrid Routing Mechanism [5.988126768890861]
DynMoLEは、ルータの確率分布のTsallisエントロピーに基づいて、専門家の選択を動的に調整するハイブリッドルーティング戦略である。
我々はDynMoLEが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-04-01T11:14:19Z) - Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer [5.585222292493927]
提案するUnion-of-Experts(UoE)は,変圧器を等価な専門家グループに分解し,入力データとエキスパートを選択的にルーティングする。
実験により、UoEモデルはフルアテンション、最先端のMoE、効率的なトランスフォーマーを上回ることが示されている。
論文 参考訳(メタデータ) (2025-03-04T11:01:25Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [95.26323548734692]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。
MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (2024-07-31T17:46:51Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [16.062265609569003]
Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデル(LLM)のパラダイムシフトアプローチとして登場した。
本稿では,(1)軽量計算を用いた効率的なルーティング機構,(2)エキスパートとトークンの共振を利用した適応的双方向選択機構,(3)動的トークン分布解析に基づくエキスパートキャパシティの下位境界を決定するモジュールを提案する。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。