論文の概要: GI Software with fewer Data Cache Misses
- arxiv url: http://arxiv.org/abs/2304.03235v1
- Date: Thu, 6 Apr 2023 17:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 13:14:15.714357
- Title: GI Software with fewer Data Cache Misses
- Title(参考訳): データキャッシュミスが少ないGIソフトウェア
- Authors: William B. Langdon and Justyna Petke and Aymeric Blot and David Clark
- Abstract要約: 遺伝的改良GIにより,既存のコンピュータプログラムのキャッシュ負荷を低減できることを示す。
Magpieは、L1データキャッシュミスが少ない機能的に等価な新しい変種を生成することができる。
あるケースでは、最高パフォーマンスのL1キャッシュにおけるデータミスを47%劇的に削減する。
- 参考スコア(独自算出の注目度): 16.36260237205515
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: By their very name caches are often overlooked and yet play a vital role in
the performance of modern and indeed future hardware. Using MAGPIE (Machine
Automated General Performance Improvement via Evolution of software) we show
genetic improvement GI can reduce the cache load of existing computer programs.
Operating on lines of C and C++ source code using local search, Magpie can
generate new functionally equivalent variants which generate fewer L1 data
cache misses. Cache miss reduction is tested on two industrial open source
programs (Google's Open Location Code OLC and Uber's Hexagonal Hierarchical
Spatial Index H3) and two 2D photograph image processing tasks, counting pixels
and OpenCV's SEEDS segmentation algorithm.
Magpie's patches functionally generalise. In one case they reduce data misses
on the highest performance L1 cache dramatically by 47 percent.
- Abstract(参考訳): その名の通り、キャッシュはしばしば見過ごされ、現代のハードウェアや将来のハードウェアのパフォーマンスにおいて重要な役割を担っている。
MAGPIE (Machine Automated General Performance Improvement via Evolution of Software) を用いて,遺伝子改良GIにより既存のコンピュータプログラムのキャッシュ負荷を低減できることを示す。
ローカル検索を使用してCとC++のソースコードの行を操作することで、MagpieはL1データキャッシュミスを少なくする機能的に等価な新しい変種を生成することができる。
キャッシュミスの削減は、2つの産業用オープンソースプログラム(GoogleのOpen Location Code OLCとUberのHexagonal Hierarchical Spatial Index H3)と2つの2D写真画像処理タスクでテストされ、ピクセルとOpenCVのSEEDSセグメンテーションアルゴリズムをカウントする。
Magpieのパッチは機能的に一般化される。
あるケースでは、最高パフォーマンスのl1キャッシュにおけるデータミスを47%劇的に削減する。
関連論文リスト
- GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless
Generative Inference of LLM [39.77567916589569]
キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。
既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。
本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
論文 参考訳(メタデータ) (2024-03-08T18:48:30Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression
for Efficient LLM Inference [83.34219335496073]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。
ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。
本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:51:38Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Minuet: Accelerating 3D Sparse Convolutions on GPUs [9.54287796030519]
スパース・コンボリューション(SC)は、本質的にスパースである3Dポイント・クラウドの処理に広く用いられている。
本研究では,従来の最先端のSCエンジンの欠点を分析し,最新のGPUに適した新しいメモリ効率のSCエンジンであるMinuetを提案する。
私たちの評価では、エンド・ツー・エンドのクラウド・ネットワークの実行に対して平均1.74時間(最大22.22時間)で、Minuetは以前のSCエンジンよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-12-01T05:09:02Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Fast and High-Quality Image Denoising via Malleable Convolutions [72.18723834537494]
動的畳み込みの効率的な変種として、Malleable Convolution (MalleConv)を提案する。
以前の作品とは異なり、MalleConvは入力から空間的に変化するカーネルのより小さなセットを生成する。
また、MalleNetという造語であるMalleConvを用いて、効率的なdenoisingネットワークを構築した。
論文 参考訳(メタデータ) (2022-01-02T18:35:20Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z) - EL-Attention: Memory Efficient Lossless Attention for Generation [27.59275177303199]
この問題に対処するために,メモリ効率の低い注意(ELアテンション)を提案する。
キャッシュを使用する必要がなく、マルチヘッドキーと値を構築するための重い操作を避ける。
要約タスクと質問生成タスクのためのTransformer, BART, GPT-2について広範な実験を行った。
論文 参考訳(メタデータ) (2021-05-11T04:37:52Z) - Parallel 3DPIFCM Algorithm for Noisy Brain MRI Images [3.3946853660795884]
本稿では,GPUを用いて並列環境で3DPIFCMと呼ばれる[1]で開発したアルゴリズムについて述べる。
この結果から,並列バージョンはGAIFCMアルゴリズムより最大27倍高速,GAIFCMアルゴリズムより68倍高速であることがわかった。
論文 参考訳(メタデータ) (2020-02-05T20:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。