論文の概要: Bare-Metal Tensor Virtualization: Overcoming the Memory Wall in Edge-AI Inference on ARM64
- arxiv url: http://arxiv.org/abs/2601.03324v1
- Date: Tue, 06 Jan 2026 15:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.055346
- Title: Bare-Metal Tensor Virtualization: Overcoming the Memory Wall in Edge-AI Inference on ARM64
- Title(参考訳): ベアメタルテンソル仮想化:ARM64上のエッジAI推論におけるメモリウォールの克服
- Authors: Bugra Kilictas, Faruk Alpay,
- Abstract要約: ARM64マイクロアーキテクチャ(Apple Silicon)向けに最適化されたソフトウェアで実装された"仮想コア"アーキテクチャ
DMA(Software-Defined Direct Memory Access)は、100%キャッシュラインの利用をウェイトで保証しますが、ゼロコピーローダは遅延を排除します。
110M秒モデルによる実験結果から,M2ハードウェア上では, >60トークン/秒の安定したスループットが示された。
- 参考スコア(独自算出の注目度): 0.5729426778193398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models (LLMs) on edge devices is fundamentally constrained by the "Memory Wall" the bottleneck where data movement latency outstrips arithmetic throughput. Standard inference runtimes often incur significant overhead through high-level abstractions, dynamic dispatch, and unaligned memory access patterns. In this work, we present a novel "Virtual Tensor Core" architecture implemented in software, optimized specifically for ARM64 microarchitectures (Apple Silicon). By bypassing standard library containers in favor of direct memory mapping (mmap) and implementing hand-tuned NEON SIMD kernels, we achieve a form of "Software-Defined Direct Memory Access (DMA)." Our proposed Tensor Virtualization Layout (TVL) guarantees 100% cache line utilization for weight matrices, while our zero-copy loader eliminates initialization latency. Experimental results on a 110M parameter model demonstrate a stable throughput of >60 tokens/second on M2 hardware. While proprietary hardware accelerators (e.g., Apple AMX) can achieve higher peak throughput, our architecture provides a fully open, portable, and deterministic reference implementation for studying the memory bottleneck on general-purpose ARM silicon, meeting the 200ms psycholinguistic latency threshold without opaque dependencies.
- Abstract(参考訳): エッジデバイスへのLLM(Large Language Models)のデプロイは、データ移動遅延が演算スループットを超過するボトルネックである"メモリウォール"によって、基本的に制限されている。
標準推論ランタイムは、高レベルの抽象化、動的ディスパッチ、不整合メモリアクセスパターンを通じて、大きなオーバーヘッドを発生させることが多い。
本研究では,ARM64マイクロアーキテクチャ(Apple Silicon)向けに最適化された,ソフトウェアに実装された新しい"Virtual Tensor Core"アーキテクチャを提案する。
標準ライブラリコンテナをバイパスし、直接メモリマッピング(mmap)と手動NEON SIMDカーネルを実装することにより、"Software-Defined Direct Memory Access (DMA)"という形式を実現する。
提案するTensor Virtualization Layout(TVL)では,ウェイトマトリックスのキャッシュライン利用が100%保証され,ゼロコピーローダは初期化遅延を排除している。
110Mパラメータモデルの実験的結果は、M2ハードウェア上で60トークン/秒の安定したスループットを示す。
プロプライエタリなハードウェアアクセラレータ(例えばApple AMX)は高いピークスループットを達成することができるが、私たちのアーキテクチャは、汎用ARMシリコン上でメモリボトルネックを研究するための、完全にオープンでポータブルで決定論的リファレンス実装を提供し、不透明な依存関係なしで200msの精神言語的レイテンシしきい値を満たす。
関連論文リスト
- ODMA: On-Demand Memory Allocation Framework for LLM Serving on LPDDR-Class Accelerators [14.238528502723787]
ランダムアクセス帯域の低いアクセラレータ上での大規模言語モデル(LLM)は、現在のメモリマネージャによって制限される。
本稿では,RACMのためのオンデマンドメモリ割り当てフレームワークODMAを提案する。
ODMAは、軽量長予測器と動的バケットパーティショニングと大型バケットセーフガードを結合することで、分散ドリフトとヘビーテールリクエストに対処する。
論文 参考訳(メタデータ) (2025-12-10T08:52:20Z) - APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration [5.075697428779204]
大規模言語モデル(LLM)は、AIアプリケーションに革命をもたらしたが、その膨大な計算要求は、デプロイメントとリアルタイムのパフォーマンスを著しく制限している。
これは主にGPU Coreの限定的なサポート、非効率なメモリ管理、非フレキシブルなカーネル最適化が原因である。
本稿では,任意の精度のLLM,すなわちAPT-LLMに対する包括的加速法を提案する。
論文 参考訳(メタデータ) (2025-08-26T14:48:29Z) - SpecMemo: Speculative Decoding is in Your Pocket [7.062887337934677]
投機的復号化は本質的に、いくつかの候補トークンを生成するために余分なメモリ割り当てを犠牲にすることに依存する。
より微細なレベルでメモリ割り当てをスマートに制御できるSpecMemoというデバイス対応推論エンジンを提案する。
SpecMemoのメモリ管理では、MT-Benchでの投機的復号化から全体のスループットの96%を維持しています。
論文 参考訳(メタデータ) (2025-05-16T22:12:29Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention [8.20523619534105]
PagedAttention は LLM サービスシステムにおける動的メモリ割り当ての一般的なアプローチである。
仮想メモリにおけるKVキャッシュの整合性を保ちながら、物理メモリのフラグメンテーションを軽減するアプローチとして、vAttentionを提案する。
全体として、vAttentionはPagedAttentionに代わるシンプルでポータブルでパフォーマンスの高いものだ。
論文 参考訳(メタデータ) (2024-05-07T16:00:32Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。