論文の概要: MoxE: Mixture of xLSTM Experts with Entropy-Aware Routing for Efficient Language Modeling
- arxiv url: http://arxiv.org/abs/2505.01459v1
- Date: Thu, 01 May 2025 12:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.130253
- Title: MoxE: Mixture of xLSTM Experts with Entropy-Aware Routing for Efficient Language Modeling
- Title(参考訳): MoxE: 効率的な言語モデリングのためのエントロピー対応ルーティングを用いたxLSTMエキスパートの混合
- Authors: Abdoul Majid O. Thiombiano, Brahim Hnich, Ali Ben Mrad, Mohamed Wiem Mkaouer,
- Abstract要約: MoxEはExtended Long Short-Term Memory (xLSTM)とMixture of Experts (MoE)フレームワークを組み合わせた新しいアーキテクチャである。
我々のアプローチの核心は、トークンを専門の専門家に動的にルーティングするために設計された、エントロピーベースのルーティングメカニズムである。
MoxEは、既存のアプローチと比較して、大幅な効率向上と有効性の向上を実現している。
- 参考スコア(独自算出の注目度): 6.553328746906528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MoxE, a novel architecture that synergistically combines the Extended Long Short-Term Memory (xLSTM) with the Mixture of Experts (MoE) framework to address critical scalability and efficiency challenges in large language models (LLMs). The proposed method effectively leverages xLSTM's innovative memory structures while strategically introducing sparsity through MoE to substantially reduce computational overhead. At the heart of our approach is a novel entropy-based routing mechanism, designed to dynamically route tokens to specialized experts, thereby ensuring efficient and balanced resource utilization. This entropy awareness enables the architecture to effectively manage both rare and common tokens, with mLSTM blocks being favored to handle rare tokens. To further enhance generalization, we introduce a suite of auxiliary losses, including entropy-based and group-wise balancing losses, ensuring robust performance and efficient training. Theoretical analysis and empirical evaluations rigorously demonstrate that MoxE achieves significant efficiency gains and enhanced effectiveness compared to existing approaches, marking a notable advancement in scalable LLM architectures.
- Abstract(参考訳): 本稿では,拡張長短期メモリ(xLSTM)とMixture of Experts(MoE)フレームワークを相乗的に組み合わせて,大規模言語モデル(LLM)における重要なスケーラビリティと効率の課題に対処する,新しいアーキテクチャであるMoxEを紹介する。
提案手法は、XLSTMの革新的なメモリ構造を効果的に活用すると同時に、MoEを介して空間性を戦略的に導入し、計算オーバーヘッドを大幅に削減する。
我々のアプローチの核心は、トークンを専門の専門家に動的にルーティングする、エントロピーに基づく新しいルーティング機構である。
このエントロピー認識により、アーキテクチャはレアトークンとコモントークンの両方を効果的に管理でき、mLSTMブロックはレアトークンを扱うために好まれる。
一般化をさらに進めるために,エントロピーベースとグループワイド・バランシング損失,堅牢な性能と効率的なトレーニングなど,一連の補助的損失を導入する。
理論的解析と経験的評価は、MoxEが既存のアプローチと比較して、大幅な効率向上と有効性の向上を実現し、スケーラブルなLLMアーキテクチャの顕著な進歩を示している。
関連論文リスト
- S'MoRE: Structural Mixture of Residual Experts for LLM Fine-tuning [17.579948649237497]
我々は,LoRAの効率とMoEの柔軟性をシームレスに統合する新しいフレームワークであるResidual Experts (S'MoRE)を提案する。
具体的には、S'MoREはエキスパートウェイトを階層的に低ランクに分解し、多層構造に相互接続した様々な順序の残基を生成する。
我々はS'MoREが従来のMoE(Mixture-of-LoRA)の「構造的柔軟性」を指数的順序で改善することを証明する。
論文 参考訳(メタデータ) (2025-04-08T20:54:00Z) - Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models [10.623996218106564]
本稿では,特定の専門家の共有潜在空間へのマッピングを容易にする新しいパラメータ化手法を提案する。
すべてのエキスパート演算は、体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、その後専門家固有の変換を行う。
この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [14.858134039539697]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
本稿では,自己アライメントを改善するために,推論チェーンとエキスパートミックスを組み合わせた新しいフレームワークを提案する。
MoTEは、質問分析、回答ガイダンス、安全回答、安全チェックの4つの主要なステージからなる構造化推論チェーンを採用している。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。