Fugu-MT 論文翻訳(概要): Memory Access Characterization of Large Language Models in CPU Environment and its Potential Impacts

論文の概要: Memory Access Characterization of Large Language Models in CPU Environment and its Potential Impacts

arxiv url: http://arxiv.org/abs/2506.01827v1
Date: Mon, 02 Jun 2025 16:12:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 01:42:09.319974
Title: Memory Access Characterization of Large Language Models in CPU Environment and its Potential Impacts
Title（参考訳）: CPU環境における大規模言語モデルのメモリアクセス特性とその潜在的影響
Authors: Spencer Banasik,
Abstract要約: 機械学習アルゴリズムはますます価値のあるツールであることが示されている。加速器なしでより大きなモデルで推論を実行することは不可能である。キャッシュアーキテクチャの変更により,CPUのみの環境におけるLCMの高速化を目指す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As machine learning algorithms are shown to be an increasingly valuable tool, the demand for their access has grown accordingly. Oftentimes, it is infeasible to run inference with larger models without an accelerator, which may be unavailable in environments that have constraints such as energy consumption, security, or cost. To increase the availability of these models, we aim to improve the LLM inference speed on a CPU-only environment by modifying the cache architecture. To determine what improvements could be made, we conducted two experiments using Llama.cpp and the QWEN model: running various cache configurations and evaluating their performance, and outputting a trace of the memory footprint. Using these experiments, we investigate the memory access patterns and performance characteristics to identify potential optimizations.
Abstract（参考訳）: 機械学習アルゴリズムはますます価値の高いツールであることが示されているため、そのアクセスに対する需要は増大している。しばしば、加速器なしでより大きなモデルで推論を実行することは不可能であり、エネルギー消費、セキュリティ、コストといった制約のある環境では利用できない。これらのモデルの可用性を高めるため、キャッシュアーキテクチャの変更により、CPUのみの環境でのLLM推論速度を改善することを目的とする。 Llama.cpp と QWEN モデルを用いた2つの実験を行い、様々なキャッシュ構成を実行し、その性能を評価し、メモリフットプリントの痕跡を出力した。これらの実験を用いて、メモリアクセスパターンと性能特性を調べ、潜在的な最適化について検討する。

関連論文リスト

Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
Pruning-Based TinyML Optimization of Machine Learning Models for Anomaly Detection in Electric Vehicle Charging Infrastructure [8.29566258132752]
本稿では,EVCIを対象とする資源制約環境における異常検出のためのプルーニング手法について検討する。最適化されたモデルは、モデルのサイズと推論時間の大幅な削減を実現しました。特に,EVCIでは,プルーニングとFSが重要な異常検出能力を保ちながら,計算効率を向上させることが示唆された。
論文参考訳（メタデータ） (2025-03-19T00:18:37Z)
The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines [6.381783966294295]
オープンソースの大規模言語モデル(LLM)により、開発者はプライバシやコンプライアンスといった側面をコントロールしながら、AIベースのソリューションを作成できる。我々は、vLLMとHuggingFaceのパイプラインという2つの推論ライブラリを使用して、20LLMのパフォーマンス、特にスループット(時間単位毎に生成されるトークン)を分析します。
論文参考訳（メタデータ） (2024-08-02T06:56:59Z)
Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。 MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-07T08:34:57Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Optimizing L1 cache for embedded systems through grammatical evolution [1.9371782627708491]
文法的進化(GE)は、与えられたベンチマークアプリケーションに対して最適なキャッシュ構成を効率的に見つけることができる。提案手法では,実世界のベースライン構成に対して平均62%の効率向上が得られるキャッシュ構成を見つけることができる。
論文参考訳（メタデータ） (2023-03-06T18:10:00Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文参考訳（メタデータ） (2020-10-04T19:45:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。