論文の概要: NGM: A Plug-and-Play Training-Free Memory Module for LLMs
- arxiv url: http://arxiv.org/abs/2605.16893v1
- Date: Sat, 16 May 2026 09:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.222942
- Title: NGM: A Plug-and-Play Training-Free Memory Module for LLMs
- Title(参考訳): NGM: LLMのためのプラグイン・アンド・プレイのトレーニング不要メモリモジュール
- Authors: Yuwen Qu, Wenhui Dong, Chenyang Si, Caifeng Shan,
- Abstract要約: N-gram Memory (NGM) は、Causal N-Gram と Cosine-Gated Memory から構成されるトレーニングフリーのプラグイン・アンド・プレイモジュールである。
NGMは、N-gram埋め込みをスクラッチからトレーニングする必要がない。
我々は8ベンチマークでQwen3シリーズのNGMを0.6Bから14Bに評価した。
- 参考スコア(独自算出の注目度): 25.667968001687342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies introduce conditional memory modules that decouple knowledge storage from neural computation, enabling more direct knowledge access. Compared to MoE, which relies on dynamic computation paths, explicit lookup provides a more efficient knowledge retrieval mechanism. However, these approaches still depend on learned memory embeddings, requiring additional training and limiting flexibility. To address this, we propose N-gram Memory (NGM), a training-free, plug-and-play module composed of a Causal N-Gram Encoder and a Cosine-Gated Memory Injector. The Causal N-Gram Encoder directly averages the pretrained token embeddings of the backbone model to construct N-gram representations, thereby eliminating the need to train separate N-gram embeddings from scratch. This design requires neither an additional memory table nor a retrieval pipeline. The Cosine-Gated Memory Injector then uses a non-parametric cosine gate with ReLU to modulate the retrieved embeddings into the contextual representations. We evaluate NGM on the Qwen3 series from 0.6B to 14B across eight benchmarks. NGM improves average performance by 0.5 to 1.2 points, with particularly clear gains on code generation and knowledge-intensive tasks (e.g., +3.0 on LiveCodeBench and +3.03 on GPQA for Qwen3-14B). Moreover, NGM also improves performance in multimodal benchmarks (e.g., MMStar +1.53 on Qwen3-VL-2B).
- Abstract(参考訳): 近年の研究では、知識記憶をニューラルネットワークから切り離す条件記憶モジュールを導入し、より直接的な知識アクセスを可能にしている。
動的計算経路に依存するMoEと比較して、明示的なルックアップはより効率的な知識検索機構を提供する。
しかしながら、これらのアプローチは依然として学習したメモリ埋め込みに依存しており、追加のトレーニングと柔軟性の制限が必要になる。
そこで我々は,Causal N-Gram Encoder と Cosine-Gated Memory Injector から構成されるトレーニングフリーのプラグイン・アンド・プレイモジュールである N-gram Memory (NGM) を提案する。
Causal N-Gram Encoderは、N-gram表現を構築するために、バックボーンモデルの事前訓練されたトークン埋め込みを直接評価し、N-gram埋め込みをスクラッチからトレーニングする必要がない。
この設計では、追加のメモリテーブルも検索パイプラインも必要としない。
次に、Cosine-Gated Memory InjectorはReLUと非パラメトリックコサインゲートを使用して、検索した埋め込みをコンテキスト表現に変調する。
我々は8ベンチマークでQwen3シリーズのNGMを0.6Bから14Bに評価した。
NGMは平均性能を0.5から1.2ポイント改善し、コード生成や知識集約タスク(例えば、LiveCodeBenchでは3.0、Qwen3-14BではGPQAでは3.03)で顕著に向上する。
さらに、NGMはマルチモーダルベンチマーク(Qwen3-VL-2BではMMStar +1.53)のパフォーマンスも改善している。
関連論文リスト
- Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling [14.471123653746275]
Diffusion Large Language Models (dLLMs) は、並列トークン生成を可能にする反復型デノゲーションを導入している。
我々の設計では、軽量な非GEMMベクトルプリミティブ、インプレースメモリ再利用戦略、分離された混合精度メモリ階層を用いる。
論文 参考訳(メタデータ) (2026-01-28T15:37:50Z) - Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models [42.816060150754645]
我々は,O(1)ルックアップのための古典的な$N$-gram埋め込みを近代化するモジュールであるEngramを介してインスタンス化した,相補的空間軸として条件記憶を導入する。
我々はEngramを27Bパラメータに拡張し、厳密なアイソパラメータとアイソFLOPs MoEベースラインよりも優れた性能を実現する。
我々は,次世代スパースモデルにおいて,条件記憶を必要不可欠なモデリングプリミティブとして想定する。
論文 参考訳(メタデータ) (2026-01-12T09:54:49Z) - CodeGEMM: A Codebook-Centric Approach to Efficient GEMM in Quantized LLMs [14.5426213901124]
本稿では,コードブック中心のGEMMカーネルであるCodeGEMMについて紹介する。
Llama-3 モデルでは、CodeGEMM は2ビット構成で 1.83x (8B) と 8.93x (70B) のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-12-19T06:16:32Z) - Generative Binary Memory: Pseudo-Replay Class-Incremental Learning on Binarized Embeddings [1.3980986259786223]
本稿では、合成バイナリ擬似例を生成する新しいCIL擬似再生手法であるジェネレーティブバイナリメモリ(GBM)を提案する。
特別に設計された特徴ビナライザを用いて、GBMはクラス分布のマルチモーダルな特性を、潜伏したバイナリ空間で効果的にモデル化する。
論文 参考訳(メタデータ) (2025-03-13T13:11:59Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - LM2: Large Memory Models [11.320069795732058]
本稿では,補助メモリモジュールで拡張されたデコーダのみのトランスフォーマーアーキテクチャであるLarge Memory Model (LM2)を紹介する。
BABILongベンチマークの実験結果によると、LM2モデルはメモリ拡張RTTモデルとベースラインのLlama-3.2モデルの両方を平均86.3%上回っている。
論文 参考訳(メタデータ) (2025-02-09T22:11:42Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。