Fugu-MT 論文翻訳(概要): QMC: Efficient SLM Edge Inference via Outlier-Aware Quantization and Emergent Memories Co-Design

論文の概要: QMC: Efficient SLM Edge Inference via Outlier-Aware Quantization and Emergent Memories Co-Design

arxiv url: http://arxiv.org/abs/2601.14549v1
Date: Wed, 21 Jan 2026 00:11:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-22 21:27:50.189059
Title: QMC: Efficient SLM Edge Inference via Outlier-Aware Quantization and Emergent Memories Co-Design
Title（参考訳）: QMC:outlier-aware量子化と創発的記憶共設計による効率的なSLMエッジ推論
Authors: Nilesh Prasad Pandey, Jangseon Park, Onat Gungor, Flavio Ponzina, Tajana Rosing,
Abstract要約: Outlier-aware Quantization Memory Co-Design (QMC) は、新しいヘテロジニアスメモリアーキテクチャを持つリトレーニングフリーな量子化である。 QMCはメモリ使用量を6.3x-7.3x、外部データ転送を7.6倍、エネルギーを11.7倍、レイテンシを12.5倍削減する。
参考スコア（独自算出の注目度）: 8.787715061109163
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deploying Small Language Models (SLMs) on edge platforms is critical for real-time, privacy-sensitive generative AI, yet constrained by memory, latency, and energy budgets. Quantization reduces model size and cost but suffers from device noise in emerging non-volatile memories, while conventional memory hierarchies further limit efficiency. SRAM provides fast access but has low density, DRAM must simultaneously accommodate static weights and dynamic KV caches, which creates bandwidth contention, and Flash, although dense, is primarily used for initialization and remains inactive during inference. These limitations highlight the need for hybrid memory organizations tailored to LLM inference. We propose Outlier-aware Quantization with Memory Co-design (QMC), a retraining-free quantization with a novel heterogeneous memory architecture. QMC identifies inlier and outlier weights in SLMs, storing inlier weights in compact multi-level Resistive-RAM (ReRAM) while preserving critical outliers in high-precision on-chip Magnetoresistive-RAM (MRAM), mitigating noise-induced degradation. On language modeling and reasoning benchmarks, QMC outperforms and matches state-of-the-art quantization methods using advanced algorithms and hybrid data formats, while achieving greater compression under both algorithm-only evaluation and realistic deployment settings. Specifically, compared against SoTA quantization methods on the latest edge AI platform, QMC reduces memory usage by 6.3x-7.3x, external data transfers by 7.6x, energy by 11.7x, and latency by 12.5x when compared to FP16, establishing QMC as a scalable, deployment-ready co-design for efficient on-device inference.
Abstract（参考訳）: エッジプラットフォームにSLM(Small Language Models)をデプロイすることは、リアルタイムでプライバシに敏感な生成AIにとって重要だが、メモリ、レイテンシ、エネルギー予算に制約されている。量子化はモデルのサイズとコストを削減するが、新しい不揮発性メモリのデバイスノイズに悩まされる一方、従来のメモリ階層は効率をさらに制限する。 SRAMは高速アクセスを提供するが密度が低いため、DRAMは静的重みと動的KVキャッシュを同時に扱わなければならない。これらの制限は、LLM推論に適したハイブリッドメモリ組織の必要性を強調している。本稿では,新しいヘテロジニアスメモリアーキテクチャを用いたリトレーニングフリーな量子化である,メモリ共設計付きアウトレイヤ対応量子化(QMC)を提案する。 QMCは、SLMにおける不整合および不整合重みを識別し、小型のマルチレベル抵抗RAM(ReRAM)に不整合重みを格納し、高精度のオンチップ磁気抵抗RAM(MRAM)において臨界外れ値を保存するとともに、ノイズによる劣化を緩和する。言語モデリングと推論のベンチマークでは、QMCは高度なアルゴリズムとハイブリッドデータフォーマットを使用して最先端の量子化手法より優れており、アルゴリズムのみの評価と現実的なデプロイメント設定の両方でより大きな圧縮を実現している。具体的には、最新のエッジAIプラットフォームにおけるSoTA量子化手法と比較して、QMCはメモリ使用量を6.3x-7.3x、外部データ転送を7.6倍、エネルギーを11.7倍、レイテンシを12.5倍削減し、効率的なデバイス上の推論のためのスケーラブルでデプロイ可能な共設計として確立している。

関連論文リスト

RAM-Net: Expressive Linear Attention with Selectively Addressable Memory [11.262593123857995]
RAM-Netは、完全な注意力の表現能力と線形モデルのメモリ効率のギャップを埋めるために設計された新しいアーキテクチャである。 RAM-Netのコアは、明示的なアドレスとして機能する高次元スパースベクトルに入力し、モデルが巨大なメモリ状態に選択的にアクセスできるようにする。
論文参考訳（メタデータ） (2026-02-12T13:55:29Z)
MSN: A Memory-based Sparse Activation Scaling Framework for Large-scale Industrial Recommendation [19.132874291460936]
メモリベースのスパースアクティベーションスケーリングフレームワークMSNを提案する。 MSNは大きなパラメータ化されたメモリからパーソナライズされた表現を検索し、下流の機能相互作用モジュールに統合する。 MSNは、高い効率を維持しながら、リコメンデーション性能を継続的に改善する。
論文参考訳（メタデータ） (2026-02-07T12:43:51Z)
ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。 ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文参考訳（メタデータ） (2026-01-29T02:51:59Z)
CXL-SpecKV: A Disaggregated FPGA Speculative KV-Cache for Datacenter LLM Serving [5.216774377033164]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。 LLMはキー値(KV)キャッシュの大規模なメモリ要求のため、課題に直面している。我々は,新しい分散KV-cacheアーキテクチャである textbfCXL-SpecKV を提案する。
論文参考訳（メタデータ） (2025-12-11T15:40:36Z)
FineServe: Precision-Aware KV Slab and Two-Level Scheduling for Heterogeneous Precision LLM Serving [2.141726730716452]
FineServeは、混合精度の大規模言語モデルのための推論機能フレームワークである。 FineServeは、最先端のGPU共有システムと比較して最大2.2倍のSLO達成率と1.8倍のトークン生成スループットを実現している。
論文参考訳（メタデータ） (2025-09-08T00:57:50Z)
End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文参考訳（メタデータ） (2025-08-21T01:18:27Z)
XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization [58.92253769255316]
LLM推論はメモリフットプリントと帯域幅の要求のために困難である。 XQuantは、ハードウェアプラットフォームの急速に増加する計算能力を利用して、メモリボトルネックを取り除く。 XQuant-CLは、極端な圧縮のためにX埋め込みの層間類似性を利用する。
論文参考訳（メタデータ） (2025-08-14T06:52:38Z)
ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [15.76582272387931]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。 ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文参考訳（メタデータ） (2025-03-13T03:36:03Z)
A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。 3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文参考訳（メタデータ） (2025-02-21T10:12:34Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-12T11:31:25Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。