Fugu-MT 論文翻訳(概要): MCAP: Deployment-Time Layer Profiling for Memory-Constrained LLM Inference

論文の概要: MCAP: Deployment-Time Layer Profiling for Memory-Constrained LLM Inference

arxiv url: http://arxiv.org/abs/2604.21026v2
Date: Fri, 24 Apr 2026 07:54:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-27 13:34:22.036735
Title: MCAP: Deployment-Time Layer Profiling for Memory-Constrained LLM Inference
Title（参考訳）: MCAP: メモリ制約 LLM 推論のためのデプロイ時間層プロファイリング
Authors: Anurita Das,
Abstract要約: MCAP (Monte Carlo Profiling) は動的精度とメモリ配置決定を可能にする負荷時間毎の重要度推定器である。 MCAPは、高精度ディスパッチと常駐層の両方を駆動する軽量な層間信号を生成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying large language models to heterogeneous hardware is often constrained by memory, not compute. We introduce MCAP (Monte Carlo Activation Profiling), a load-time per-layer importance estimator that enables dynamic precision and memory placement decisions on the target device. MCAP produces a lightweight per-layer signal that drives both precision dispatch (W4A8 vs. W4A16) and residency tier (GPU, RAM, SSD), allowing a single set of weights to operate across diverse memory budgets. Our system, NVE, achieves 1.5-1.8x higher decode throughput than llama-cpp Q4_0 on NVIDIA T4 and enables models to run in memory regimes previously infeasible without modifying weights.
Abstract（参考訳）: 大規模な言語モデルを異種ハードウェアにデプロイすることは、計算ではなくメモリによって制約されることが多い。我々は,MCAP(Monte Carlo Activation Profiling)を導入し,動的精度とメモリ配置決定を可能にする層ごとの負荷時間重要度推定器を提案する。 MCAPは、高精度ディスパッチ(W4A8 vs. W4A16)と常駐層(GPU、RAM、SSD)の両方を駆動する軽量な層間信号を生成する。当社のシステムであるNVEはNVIDIA T4のllama-cpp Q4_0よりも1.5-1.8倍高いデコードスループットを実現している。

関連論文リスト

Fast-weight Product Key Memory [4.223740794663811]
スパース製品キーメモリ(PKM)を動的に「高速」エピソードメモリに変換するために,高速製品キーメモリ(FwPKM)を提案する。実験により、FwPKMは標準モジュールのセマンティックメモリを補完する効果的なエピソードメモリとして機能することが明らかになった。
論文参考訳（メタデータ） (2026-01-02T12:37:53Z)
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。 MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。 VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文参考訳（メタデータ） (2025-12-04T12:56:30Z)
CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression [0.4104352271917982]
大規模言語モデル(LLM)はトークンの埋め込みに多数のパラメータを依存しているため、かなりのストレージ要件とメモリフットプリントに繋がる。本稿では, グループ残差ベクトル量子化を併用したポストトレーニング小説Corrective AdaptorであるCARVQを紹介する。 CarVQは、低ビットストレージをサポートするための特別なハードウェアを必要とせず、約1.6ビットまで圧縮するためにオリジナルのモデルを模倣している。
論文参考訳（メタデータ） (2025-10-14T17:00:13Z)
SpecMemo: Speculative Decoding is in Your Pocket [7.062887337934677]
投機的復号化は本質的に、いくつかの候補トークンを生成するために余分なメモリ割り当てを犠牲にすることに依存する。より微細なレベルでメモリ割り当てをスマートに制御できるSpecMemoというデバイス対応推論エンジンを提案する。 SpecMemoのメモリ管理では、MT-Benchでの投機的復号化から全体のスループットの96%を維持しています。
論文参考訳（メタデータ） (2025-05-16T22:12:29Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文参考訳（メタデータ） (2024-11-05T05:36:17Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文参考訳（メタデータ） (2020-08-12T06:09:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。