Fugu-MT 論文翻訳(概要): GI Software with fewer Data Cache Misses

論文の概要: GI Software with fewer Data Cache Misses

arxiv url: http://arxiv.org/abs/2304.03235v1
Date: Thu, 6 Apr 2023 17:15:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-07 13:14:15.714357
Title: GI Software with fewer Data Cache Misses
Title（参考訳）: データキャッシュミスが少ないGIソフトウェア
Authors: William B. Langdon and Justyna Petke and Aymeric Blot and David Clark
Abstract要約: 遺伝的改良GIにより,既存のコンピュータプログラムのキャッシュ負荷を低減できることを示す。 Magpieは、L1データキャッシュミスが少ない機能的に等価な新しい変種を生成することができる。あるケースでは、最高パフォーマンスのL1キャッシュにおけるデータミスを47%劇的に削減する。
参考スコア（独自算出の注目度）: 16.36260237205515
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: By their very name caches are often overlooked and yet play a vital role in the performance of modern and indeed future hardware. Using MAGPIE (Machine Automated General Performance Improvement via Evolution of software) we show genetic improvement GI can reduce the cache load of existing computer programs. Operating on lines of C and C++ source code using local search, Magpie can generate new functionally equivalent variants which generate fewer L1 data cache misses. Cache miss reduction is tested on two industrial open source programs (Google's Open Location Code OLC and Uber's Hexagonal Hierarchical Spatial Index H3) and two 2D photograph image processing tasks, counting pixels and OpenCV's SEEDS segmentation algorithm. Magpie's patches functionally generalise. In one case they reduce data misses on the highest performance L1 cache dramatically by 47 percent.
Abstract（参考訳）: その名の通り、キャッシュはしばしば見過ごされ、現代のハードウェアや将来のハードウェアのパフォーマンスにおいて重要な役割を担っている。 MAGPIE (Machine Automated General Performance Improvement via Evolution of Software) を用いて,遺伝子改良GIにより既存のコンピュータプログラムのキャッシュ負荷を低減できることを示す。ローカル検索を使用してCとC++のソースコードの行を操作することで、MagpieはL1データキャッシュミスを少なくする機能的に等価な新しい変種を生成することができる。キャッシュミスの削減は、2つの産業用オープンソースプログラム(GoogleのOpen Location Code OLCとUberのHexagonal Hierarchical Spatial Index H3)と2つの2D写真画像処理タスクでテストされ、ピクセルとOpenCVのSEEDSセグメンテーションアルゴリズムをカウントする。 Magpieのパッチは機能的に一般化される。あるケースでは、最高パフォーマンスのl1キャッシュにおけるデータミスを47%劇的に削減する。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
Cache-Craft: Managing Chunk-Caches for Efficient Retrieval-Augmented Generation [14.842469293627271]
CacheCraftは、テキストチャンクに対応する計算済みKVの再利用を管理するシステムである。再利用可能なチャンクキャッシュの特定方法、キャッシュの修正に少数の再計算を効率的に行う方法、ハードウェアにチャンクキャッシュを効率よく保存・削除する方法を示す。
論文参考訳（メタデータ） (2025-02-05T14:12:33Z)
XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。 KV-Cacheフレームワークは時間と空間の複雑さを妥協する。既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文参考訳（メタデータ） (2024-12-08T11:32:08Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Cheddar: A Swift Fully Homomorphic Encryption Library for CUDA GPUs [2.613335121517245]
FHE(Fully homomorphic encryption)は、クラウドコンピューティングにおけるセキュリティとプライバシの問題を解決するための暗号化技術である。 FHEは、暗号化されたデータを処理するための膨大な計算オーバーヘッドを導入し、FHEワークロードは暗号化されていないワークロードよりも2～6桁遅くなりました。本稿では,GPUのFHEライブラリであるCheddarを提案する。
論文参考訳（メタデータ） (2024-07-17T23:49:18Z)
PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。 PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文参考訳（メタデータ） (2024-05-21T06:46:37Z)
GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM [37.87634266742105]
キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
論文参考訳（メタデータ） (2024-03-08T18:48:30Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
Cache Me if You Can: Accelerating Diffusion Models through Block Caching [67.54820800003375]
画像間の大規模なネットワークは、ランダムノイズから画像を反復的に洗練するために、何度も適用されなければならない。ネットワーク内のレイヤの振る舞いを調査し,1) レイヤの出力が経時的にスムーズに変化すること,2) レイヤが異なる変更パターンを示すこと,3) ステップからステップへの変更が非常に小さいこと,などが分かる。本稿では,各ブロックの時間経過変化に基づいて,キャッシュスケジュールを自動的に決定する手法を提案する。
論文参考訳（メタデータ） (2023-12-06T00:51:38Z)
Minuet: Accelerating 3D Sparse Convolutions on GPUs [9.54287796030519]
スパース・コンボリューション(SC)は、本質的にスパースである3Dポイント・クラウドの処理に広く用いられている。本研究では,従来の最先端のSCエンジンの欠点を分析し,最新のGPUに適した新しいメモリ効率のSCエンジンであるMinuetを提案する。私たちの評価では、エンド・ツー・エンドのクラウド・ネットワークの実行に対して平均1.74時間(最大22.22時間)で、Minuetは以前のSCエンジンよりも大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2023-12-01T05:09:02Z)
ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。 ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。 ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文参考訳（メタデータ） (2021-10-01T16:25:40Z)
Parallel 3DPIFCM Algorithm for Noisy Brain MRI Images [3.3946853660795884]
本稿では,GPUを用いて並列環境で3DPIFCMと呼ばれる[1]で開発したアルゴリズムについて述べる。この結果から,並列バージョンはGAIFCMアルゴリズムより最大27倍高速,GAIFCMアルゴリズムより68倍高速であることがわかった。
論文参考訳（メタデータ） (2020-02-05T20:30:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。