論文の概要: MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling
- arxiv url: http://arxiv.org/abs/2602.03359v1
- Date: Tue, 03 Feb 2026 10:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.393411
- Title: MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling
- Title(参考訳): MeKi: 効率的なLLMスケーリングのためのメモリベースのエキスパート知識注入
- Authors: Ning Ding, Fangcheng Liu, Kyungrae Kim, Linji Hao, Kyeng-Hun Lee, Hyeonmok Ko, Yehui Tang,
- Abstract要約: 大規模言語モデル(LLM)のスケーリングは通常、パフォーマンスを高めるためにパラメータやテスト時間計算の数を増やすことに依存する。
MeKi(メモリベースエキスパートナレッジインジェクション)は、FLOPではなくストレージ空間を介してLLM容量をスケールする新しいシステムである。
MeKiは、同一の推論速度で高密度LLMベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 29.784396745475835
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scaling Large Language Models (LLMs) typically relies on increasing the number of parameters or test-time computations to boost performance. However, these strategies are impractical for edge device deployment due to limited RAM and NPU resources. Despite hardware constraints, deploying performant LLM on edge devices such as smartphone remains crucial for user experience. To address this, we propose MeKi (Memory-based Expert Knowledge Injection), a novel system that scales LLM capacity via storage space rather than FLOPs. MeKi equips each Transformer layer with token-level memory experts that injects pre-stored semantic knowledge into the generation process. To bridge the gap between training capacity and inference efficiency, we employ a re-parameterization strategy to fold parameter matrices used during training into a compact static lookup table. By offloading the knowledge to ROM, MeKi decouples model capacity from computational cost, introducing zero inference latency overhead. Extensive experiments demonstrate that MeKi significantly outperforms dense LLM baselines with identical inference speed, validating the effectiveness of memory-based scaling paradigm for on-device LLMs. Project homepage is at https://github.com/ningding-o/MeKi.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは通常、パフォーマンスを高めるためにパラメータやテスト時間計算の数を増やすことに依存する。
しかしながら、これらの戦略は、限られたRAMとNPUリソースのため、エッジデバイスのデプロイには実用的ではない。
ハードウェアの制約にもかかわらず、スマートフォンなどのエッジデバイスにパフォーマンスのLLMをデプロイすることは、ユーザエクスペリエンスにとって不可欠である。
そこで本研究では,FLOPではなくストレージ空間を介してLLM容量を拡大する新しいシステムであるMeKi(メモリベースエキスパート知識注入)を提案する。
MeKiは各トランスフォーマー層にトークンレベルのメモリエキスパートを装備し、プリストアドセマンティック知識を生成プロセスに注入する。
トレーニング能力と推論効率のギャップを埋めるために、トレーニング中に使用するパラメータ行列をコンパクトな静的ルックアップテーブルに折り畳むために再パラメータ化戦略を用いる。
知識をROMにオフロードすることで、MeKiはモデル容量を計算コストから切り離し、推論遅延のオーバーヘッドをゼロにする。
大規模な実験により、MeKiは同一の推論速度で高密度LCMベースラインを著しく上回り、オンデバイスLSMにおけるメモリベースのスケーリングパラダイムの有効性を検証した。
プロジェクトのホームページはhttps://github.com/ningding-o/MeKi.comにある。
関連論文リスト
- Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文 参考訳(メタデータ) (2024-06-10T15:44:22Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。
実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。