論文の概要: Memory Access Characterization of Large Language Models in CPU Environment and its Potential Impacts
- arxiv url: http://arxiv.org/abs/2506.01827v1
- Date: Mon, 02 Jun 2025 16:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.319974
- Title: Memory Access Characterization of Large Language Models in CPU Environment and its Potential Impacts
- Title(参考訳): CPU環境における大規模言語モデルのメモリアクセス特性とその潜在的影響
- Authors: Spencer Banasik,
- Abstract要約: 機械学習アルゴリズムはますます価値のあるツールであることが示されている。
加速器なしでより大きなモデルで推論を実行することは不可能である。
キャッシュアーキテクチャの変更により,CPUのみの環境におけるLCMの高速化を目指す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As machine learning algorithms are shown to be an increasingly valuable tool, the demand for their access has grown accordingly. Oftentimes, it is infeasible to run inference with larger models without an accelerator, which may be unavailable in environments that have constraints such as energy consumption, security, or cost. To increase the availability of these models, we aim to improve the LLM inference speed on a CPU-only environment by modifying the cache architecture. To determine what improvements could be made, we conducted two experiments using Llama.cpp and the QWEN model: running various cache configurations and evaluating their performance, and outputting a trace of the memory footprint. Using these experiments, we investigate the memory access patterns and performance characteristics to identify potential optimizations.
- Abstract(参考訳): 機械学習アルゴリズムはますます価値の高いツールであることが示されているため、そのアクセスに対する需要は増大している。
しばしば、加速器なしでより大きなモデルで推論を実行することは不可能であり、エネルギー消費、セキュリティ、コストといった制約のある環境では利用できない。
これらのモデルの可用性を高めるため、キャッシュアーキテクチャの変更により、CPUのみの環境でのLLM推論速度を改善することを目的とする。
Llama.cpp と QWEN モデルを用いた2つの実験を行い、様々なキャッシュ構成を実行し、その性能を評価し、メモリフットプリントの痕跡を出力した。
これらの実験を用いて、メモリアクセスパターンと性能特性を調べ、潜在的な最適化について検討する。
関連論文リスト
- The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines [6.381783966294295]
オープンソースの大規模言語モデル(LLM)により、開発者はプライバシやコンプライアンスといった側面をコントロールしながら、AIベースのソリューションを作成できる。
我々は、vLLMとHuggingFaceのパイプラインという2つの推論ライブラリを使用して、20LLMのパフォーマンス、特にスループット(時間単位毎に生成されるトークン)を分析します。
論文 参考訳(メタデータ) (2024-08-02T06:56:59Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Optimizing L1 cache for embedded systems through grammatical evolution [1.9371782627708491]
文法的進化(GE)は、与えられたベンチマークアプリケーションに対して最適なキャッシュ構成を効率的に見つけることができる。
提案手法では,実世界のベースライン構成に対して平均62%の効率向上が得られるキャッシュ構成を見つけることができる。
論文 参考訳(メタデータ) (2023-03-06T18:10:00Z) - Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。
これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。
対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文 参考訳(メタデータ) (2020-10-04T19:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。