論文の概要: Mixture of Lookup Key-Value Experts
- arxiv url: http://arxiv.org/abs/2512.09723v1
- Date: Wed, 10 Dec 2025 15:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.566113
- Title: Mixture of Lookup Key-Value Experts
- Title(参考訳): キーバリューエキスパートの混在
- Authors: Zongcheng Wang,
- Abstract要約: textbfMixture textbfof textbfLookup textbfKey-textbfValue Experts (textbfMoLKV) モデルを提示する。
MoLKVは、小規模評価において、バリデーション損失を著しく低減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent research has developed several LLM architectures suitable for inference on end-user devices, such as the Mixture of Lookup Experts (MoLE)~\parencite{jie_mixture_2025}. A key feature of MoLE is that each token id is associated with a dedicated group of experts. For a given input, only the experts corresponding to the input token id will be activated. Since the communication overhead of loading this small number of activated experts into RAM during inference is negligible, expert parameters can be offloaded to storage, making MoLE suitable for resource-constrained devices. However, MoLE's context-independent expert selection mechanism, based solely on input ids, may limit model performance. To address this, we propose the \textbf{M}ixture \textbf{o}f \textbf{L}ookup \textbf{K}ey-\textbf{V}alue Experts (\textbf{MoLKV}) model. In MoLKV, each expert is structured as a key-value pair. For a given input, the input-derived query interacts with the cached key-value experts from the current sequence, generating a context-aware expert output. This context-aware mechanism alleviates the limitation of MoLE, and experimental results demonstrate that MoLKV achieves significantly lower validation loss in small-scale evaluations.
- Abstract(参考訳): 近年のLLMアーキテクチャは,Mixture of Lookup Experts (MoLE)~\parencite{jie_mixture_2025}など,エンドユーザーデバイス上での推論に適したアーキテクチャが開発されている。
MoLEの重要な特徴は、各トークンIDが専門家の専用グループに関連付けられていることだ。
ある入力に対して、入力トークンidに対応する専門家のみが起動される。
この少数のアクティベートされた専門家を推論中にRAMにロードする通信オーバーヘッドは無視できるため、専門家パラメータはストレージにオフロードできるため、リソース制約のあるデバイスに適合する。
しかし、MoLEの文脈に依存しない専門家選択機構は、入力IDのみに基づいて、モデルの性能を制限する可能性がある。
この問題に対処するため,本稿では,textbf{M}ixture \textbf{o}f \textbf{L}ookup \textbf{K}ey-\textbf{V}alue Experts (\textbf{MoLKV})モデルを提案する。
MoLKVでは、各専門家はキーと値のペアとして構成される。
与えられた入力に対して、入力由来のクエリは、現在のシーケンスからキャッシュされたキーバリューエキスパートと相互作用し、コンテキスト対応のエキスパート出力を生成する。
この文脈認識機構は,MoLEの限界を緩和し,小型評価においてMoLKVの検証損失が著しく低いことを示す実験結果を得た。
関連論文リスト
- Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。
MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-20T02:31:57Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models [14.646419975663367]
我々はAdaMoEを導入し、MoEのトークン適応ルーティングを実現する。
AdaMoEは各トークンに一定数のnullエキスパートを占有させません。
パフォーマンスを向上しながら、平均的な専門家負荷(FLOP)を削減できます。
論文 参考訳(メタデータ) (2024-06-19T05:47:10Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。