論文の概要: Pre-Attention Expert Prediction and Prefetching for Mixture-of-Experts Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10676v1
- Date: Mon, 10 Nov 2025 13:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.258568
- Title: Pre-Attention Expert Prediction and Prefetching for Mixture-of-Experts Large Language Models
- Title(参考訳): 実験用大言語モデルの事前予測と前処理
- Authors: Shien Zhu, Samuel Bohl, Robin Oester, Gustavo Alonso,
- Abstract要約: 我々は,高精度かつ軽量なエキスパートプレフェッチを実現するために,プレアテンションエキスパート予測を提案する。
当社の軽量プレアテンションエキスパートルータは、DeepSeek V2 Liteで93.03%、Qwen3-30Bで94.69%、Phi-mini-MoEで97.62%の精度を達成した。
- 参考スコア(独自算出の注目度): 3.815661340933621
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) Large Language Models (LLMs) efficiently scale-up the model while keeping relatively low inference cost. As MoE models only activate part of the experts, related work has proposed expert prediction and caching methods to prefetch the experts for faster inference. However, existing approaches utilize the activations from the previous layer for prediction, incurring low accuracy and leave the first layer unoptimized. Applying complex layers or even training standalone networks for better prediction introduces high computation overhead. In this paper, we propose pre-attention expert prediction to achieve accurate and lightweight expert prefetching. The key insight is that some functions in LLMs are ranking-preserving, indicating that matching the ranking of selected experts using simple linear functions is possible. Therefore, we utilize the activations before the attention block in the same layer with 2 linear functions and ranking-aware loss to achieve accurate prediction, which also supports prefetching in the first layer. Our lightweight, pre-attention expert routers achieve 93.03% accuracy on DeepSeek V2 Lite, 94.69% on Qwen3-30B, and 97.62% on Phi-mini-MoE, showing about 15% improvement on absolute accuracy over the state-of-the-art methods.
- Abstract(参考訳): Mixture-of-Experts (MoE) Large Language Models (LLMs) は比較的低い推論コストを維持しながらモデルを効率的にスケールアップする。
MoEモデルは専門家の一部のみを活性化するので、関連する研究は専門家の予測とキャッシング手法を提案し、より高速な推論を可能にした。
しかし、既存のアプローチでは、前のレイヤからのアクティベーションを利用して予測し、低い精度で第1のレイヤを最適化しない。
複雑なレイヤを適用したり、より良い予測のためにスタンドアロンネットワークをトレーニングすることさえ、高い計算オーバーヘッドをもたらす。
本稿では,高精度かつ軽量なプレフェッチを実現するために,プレアテンションエキスパート予測を提案する。
鍵となる洞察は、LLMのいくつかの機能はランキング保存であり、単純な線形関数を使って選ばれた専門家のランキングと一致することが可能であることである。
そこで,2つの線形関数を持つ同一層における注意ブロック前のアクティベーションを利用して精度の高い予測を行う。
当社の軽量プレアテンションエキスパートルータは、DeepSeek V2 Liteで93.03%の精度、Qwen3-30Bで94.69%、Phi-mini-MoEで97.62%の精度を実現し、最先端の手法よりも15%の精度が向上した。
関連論文リスト
- How Do LLMs Use Their Depth? [17.148445769990907]
大規模言語モデルは深度を均一に用いていないが,層レベルでの予測力学の詳細な理解はいまだに得られていない。
本稿では,LLMが内部的に計算を構成して予測を行う方法について説明する。
論文 参考訳(メタデータ) (2025-10-21T17:59:05Z) - LExI: Layer-Adaptive Active Experts for Efficient MoE Model Inference [2.8653469160349077]
我々は、事前訓練されたMoEモデルにおいて、各層当たりのアクティブな専門家の最適な数を決定する、データフリーな最適化手法であるLExIを紹介する。
最先端の言語とビジョンのMoEベンチマークの実験では、LExIは推論効率の点で従来のMoEプルーニング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-02T19:01:46Z) - MoE-Beyond: Learning-Based Expert Activation Prediction on Edge Devices [0.0]
自己回帰復号中に専門家のアクティベーションを予測するための学習ベースエキスパートアクティベーション予測器であるMoE-Beyondを紹介する。
我々の予測器は、WebGLM-QAデータセットからの見えないプロンプトを効果的に一般化し、97.5%の精度と86.6%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-08-23T20:28:32Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Beyond Accuracy: Ensuring Correct Predictions With Correct Rationales [10.397502254316645]
二重補正予測のための二相予測手法を提案する。
まず、視覚認識タスクに対して構造化された合理性を提供する新しいデータセットをキュレートする。
第二に,視覚的エビデンスを解消し,局所化する際のモデル案内のための有理形最適化手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:33:39Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。