論文の概要: MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling
- arxiv url: http://arxiv.org/abs/2602.03359v1
- Date: Tue, 03 Feb 2026 10:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.393411
- Title: MeKi: Memory-based Expert Knowledge Injection for Efficient LLM Scaling
- Title(参考訳): MeKi: 効率的なLLMスケーリングのためのメモリベースのエキスパート知識注入
- Authors: Ning Ding, Fangcheng Liu, Kyungrae Kim, Linji Hao, Kyeng-Hun Lee, Hyeonmok Ko, Yehui Tang,
- Abstract要約: 大規模言語モデル(LLM)のスケーリングは通常、パフォーマンスを高めるためにパラメータやテスト時間計算の数を増やすことに依存する。
MeKi(メモリベースエキスパートナレッジインジェクション)は、FLOPではなくストレージ空間を介してLLM容量をスケールする新しいシステムである。
MeKiは、同一の推論速度で高密度LLMベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 29.784396745475835
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scaling Large Language Models (LLMs) typically relies on increasing the number of parameters or test-time computations to boost performance. However, these strategies are impractical for edge device deployment due to limited RAM and NPU resources. Despite hardware constraints, deploying performant LLM on edge devices such as smartphone remains crucial for user experience. To address this, we propose MeKi (Memory-based Expert Knowledge Injection), a novel system that scales LLM capacity via storage space rather than FLOPs. MeKi equips each Transformer layer with token-level memory experts that injects pre-stored semantic knowledge into the generation process. To bridge the gap between training capacity and inference efficiency, we employ a re-parameterization strategy to fold parameter matrices used during training into a compact static lookup table. By offloading the knowledge to ROM, MeKi decouples model capacity from computational cost, introducing zero inference latency overhead. Extensive experiments demonstrate that MeKi significantly outperforms dense LLM baselines with identical inference speed, validating the effectiveness of memory-based scaling paradigm for on-device LLMs. Project homepage is at https://github.com/ningding-o/MeKi.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは通常、パフォーマンスを高めるためにパラメータやテスト時間計算の数を増やすことに依存する。
しかしながら、これらの戦略は、限られたRAMとNPUリソースのため、エッジデバイスのデプロイには実用的ではない。
ハードウェアの制約にもかかわらず、スマートフォンなどのエッジデバイスにパフォーマンスのLLMをデプロイすることは、ユーザエクスペリエンスにとって不可欠である。
そこで本研究では,FLOPではなくストレージ空間を介してLLM容量を拡大する新しいシステムであるMeKi(メモリベースエキスパート知識注入)を提案する。
MeKiは各トランスフォーマー層にトークンレベルのメモリエキスパートを装備し、プリストアドセマンティック知識を生成プロセスに注入する。
トレーニング能力と推論効率のギャップを埋めるために、トレーニング中に使用するパラメータ行列をコンパクトな静的ルックアップテーブルに折り畳むために再パラメータ化戦略を用いる。
知識をROMにオフロードすることで、MeKiはモデル容量を計算コストから切り離し、推論遅延のオーバーヘッドをゼロにする。
大規模な実験により、MeKiは同一の推論速度で高密度LCMベースラインを著しく上回り、オンデバイスLSMにおけるメモリベースのスケーリングパラダイムの有効性を検証した。
プロジェクトのホームページはhttps://github.com/ningding-o/MeKi.comにある。
関連論文リスト
- Adaptive Memory Admission Control for LLM Agents [9.04001220868675]
本稿では,メモリ入力を構造化決定問題として扱うフレームワークであるAdaptive Memory Admission Control (A-MAC)を提案する。
A-MACはメモリ値を5つの補完的・解釈可能な因子に分解する。
A-MACは精度のよいリコールトレードオフを実現し、F1を0.583に改善し、最先端のLLMネイティブメモリシステムに比べてレイテンシを31%削減した。
論文 参考訳(メタデータ) (2026-03-04T19:32:02Z) - MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。
現在の手法はコストと精度のトレードオフに直面している。
MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T02:57:38Z) - MemCtrl: Using MLLMs as Active Memory Controllers on Embodied Agents [53.44122827359892]
本稿では,Multimodal Large Language Models (MLLM) を用いたメモリのオンラインプルーニングフレームワークであるMemCtrlを提案する。
拡張MLLMは平均で16%、特定の命令サブセットで20%以上改善されている。
論文 参考訳(メタデータ) (2026-01-28T18:31:17Z) - MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。
MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。
VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文 参考訳(メタデータ) (2025-12-04T12:56:30Z) - Reversing Large Language Models for Efficient Training and Fine-Tuning [24.232966507637673]
大きな言語モデル(LLM)は、高価で時間を要する訓練で知られている。
対称およびシンプレクティック微分方程式に着想を得たLLMのメモリ効率・可逆的アーキテクチャを提案する。
その結果、いくつかのデータセットとベンチマークで同等または改善されたパフォーマンスを示しました。
論文 参考訳(メタデータ) (2025-11-27T19:32:15Z) - Mixture-of-Channels: Exploiting Sparse FFNs for Efficient LLMs Pre-Training and Inference [16.71963410333802]
大規模言語モデル(LLM)は、多様な人工知能タスクで顕著な成功を収めている。
MoCは、事前トレーニング中のアクティベーションメモリを大幅に削減する。
MoCは、競合モデルのパフォーマンスを維持しながら、メモリの大幅な節約とスループットの向上を提供する。
論文 参考訳(メタデータ) (2025-11-12T13:30:57Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。
LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。
提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文 参考訳(メタデータ) (2024-06-10T15:44:22Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。
実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。