Fugu-MT 論文翻訳(概要): Optimizing L1 cache for embedded systems through grammatical evolution

論文の概要: Optimizing L1 cache for embedded systems through grammatical evolution

arxiv url: http://arxiv.org/abs/2303.03338v1
Date: Mon, 6 Mar 2023 18:10:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-07 15:01:05.832868
Title: Optimizing L1 cache for embedded systems through grammatical evolution
Title（参考訳）: 文法進化による組込みシステムのL1キャッシュ最適化
Authors: Josefa D\'iaz \'Alvarez, J. Manuel Colmenar, Jos\'e L. Risco-Mart\'in, Juan Lanchares and Oscar Garnica
Abstract要約: 文法的進化(GE)は、与えられたベンチマークアプリケーションに対して最適なキャッシュ構成を効率的に見つけることができる。提案手法では,実世界のベースライン構成に対して平均62%の効率向上が得られるキャッシュ構成を見つけることができる。
参考スコア（独自算出の注目度）: 1.9371782627708491
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Nowadays, embedded systems are provided with cache memories that are large enough to influence in both performance and energy consumption as never occurred before in this kind of systems. In addition, the cache memory system has been identified as a component that improves those metrics by adapting its configuration according to the memory access patterns of the applications being run. However, given that cache memories have many parameters which may be set to a high number of different values, designers face to a wide and time-consuming exploration space. In this paper we propose an optimization framework based on Grammatical Evolution (GE) which is able to efficiently find the best cache configurations for a given set of benchmark applications. This metaheuristic allows an important reduction of the optimization runtime obtaining good results in a low number of generations. Besides, this reduction is also increased due to the efficient storage of evaluated caches. Moreover, we selected GE because the plasticity of the grammar eases the creation of phenotypes that form the call to the cache simulator required for the evaluation of the different configurations. Experimental results for the Mediabench suite show that our proposal is able to find cache configurations that obtain an average improvement of $62\%$ versus a real world baseline configuration.
Abstract（参考訳）: 現在, 組込みシステムにはキャッシュメモリが備わっており, この種のシステムではかつてない性能とエネルギー消費に影響を及ぼすほど大きなキャッシュメモリが備わっている。さらに、キャッシュメモリシステムは、実行中のアプリケーションのメモリアクセスパターンに従って構成を調整することで、これらのメトリクスを改善するコンポーネントとして特定されている。しかし、キャッシュメモリには多くのパラメータがあり、多くの異なる値に設定できるため、デザイナーは広い時間を要する探索空間に直面している。本稿では,与えられたベンチマークアプリケーションに対して最適なキャッシュ構成を効率的に見つけることができる文法進化(GE)に基づく最適化フレームワークを提案する。このメタヒューリスティックにより、最適化ランタイムが大幅に削減され、少ない世代で良い結果が得られる。さらに、評価キャッシュの効率的なストレージのため、この削減も増加する。さらに,文法の可塑性は,異なる構成の評価に必要なキャッシュシミュレータへの呼び出しを形成する表現型の作成を容易にするため,GEを選択した。 Mediabench スイートの実験結果から,提案手法は実世界のベースライン構成に対して平均 62 %$ のキャッシュ構成が得られることがわかった。

関連論文リスト

QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
Dynamic Optimization of Storage Systems Using Reinforcement Learning Techniques [40.13303683102544]
本稿では,ストレージシステム構成を動的に最適化する強化学習ベースのフレームワークであるRL-Storageを紹介する。 RL-Storageは、リアルタイムI/Oパターンから学習し、キャッシュサイズ、キュー深さ、readahead設定などの最適なストレージパラメータを予測する。スループットは最大2.6倍、レイテンシはベースラインに比べて43%向上する。
論文参考訳（メタデータ） (2024-12-29T17:41:40Z)
XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。 KV-Cacheフレームワークは時間と空間の複雑さを妥協する。既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文参考訳（メタデータ） (2024-12-08T11:32:08Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation [11.321659218769598]
Retrieval-Augmented Generation (RAG)は、様々な自然言語処理タスクにおいて大幅に改善されている。 RAGCacheは、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュする。 RAGCacheは、最初のトークン(TTTF)までの時間を最大4倍に削減し、スループットを最大2.1倍改善する。
論文参考訳（メタデータ） (2024-04-18T18:32:30Z)
Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。 MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-07T08:34:57Z)
Cached Transformers: Improving Transformers with Differentiable Memory Cache [71.28188777209034]
この作業では、Cached Transformerと呼ばれる新しいTransformerモデルが導入されている。 Gated Recurrent Cached (GRC) を使用して、トークンの異なるメモリキャッシュで自己アテンションメカニズムを拡張する。
論文参考訳（メタデータ） (2023-12-20T03:30:51Z)
Using Evolutionary Algorithms to Find Cache-Friendly Generalized Morton Layouts for Arrays [0.3749861135832073]
モートンレイアウトを多次元データレイアウトの非常に大きなファミリーに一般化する方法を示す。このようなレイアウトに対する色調表現と,レイアウトの適合度を推定する手法を提案する。適応性関数は実ハードウェア上でのカーネル実行時間と相関し、進化的戦略によりシミュレーションキャッシュ特性を持つ候補を見つけることができることを示す。
論文参考訳（メタデータ） (2023-09-13T14:54:54Z)
Evolutionary Design of the Memory Subsystem [2.378428291297535]
本稿では,メモリサブシステム全体の最適化を,単一の方法論として統合した3つのアプローチで解決する。そこで本研究では,メモリシミュレータとプロファイリングツールを組み合わせた進化的アルゴリズムを提案する。また、我々の提案をよく知られたベンチマークアプリケーションを用いて評価する実験的な経験も提供する。
論文参考訳（メタデータ） (2023-03-07T10:45:51Z)
Multi-objective optimization of energy consumption and execution time in a single level cache memory for embedded systems [2.378428291297535]
多目的最適化は、両方の競合するメトリクスを独立的に最小化するのに役立ちます。提案手法は, 実行時間とエネルギー消費において平均64.43%, 91.69%の改善を達成した。
論文参考訳（メタデータ） (2023-02-22T09:35:03Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。