論文の概要: Value-Compressed Sparse Column (VCSC): Sparse Matrix Storage for
Redundant Data
- arxiv url: http://arxiv.org/abs/2309.04355v1
- Date: Fri, 8 Sep 2023 14:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 13:11:45.125140
- Title: Value-Compressed Sparse Column (VCSC): Sparse Matrix Storage for
Redundant Data
- Title(参考訳): value-compressed sparse column (vcsc): 冗長データのためのスパースマトリックスストレージ
- Authors: Skyler Ruiter, Seth Wolfgang, Marc Tunnell, Timothy Triche Jr., Erin
Carrier, Zachary DeBruine
- Abstract要約: 非常に冗長なスパースデータは、ゲノミクスのような多くの機械学習アプリケーションで一般的である。
圧縮スパースカラム(CSC)の2つの拡張について述べる。
本稿では,VCSC と IVCSC を圧縮形式で読み取ることができることを示す。
- 参考スコア(独自算出の注目度): 1.0485739694839669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compressed Sparse Column (CSC) and Coordinate (COO) are popular compression
formats for sparse matrices. However, both CSC and COO are general purpose and
cannot take advantage of any of the properties of the data other than sparsity,
such as data redundancy. Highly redundant sparse data is common in many machine
learning applications, such as genomics, and is often too large for in-core
computation using conventional sparse storage formats. In this paper, we
present two extensions to CSC: (1) Value-Compressed Sparse Column (VCSC) and
(2) Index- and Value-Compressed Sparse Column (IVCSC). VCSC takes advantage of
high redundancy within a column to further compress data up to 3-fold over COO
and 2.25-fold over CSC, without significant negative impact to performance
characteristics. IVCSC extends VCSC by compressing index arrays through delta
encoding and byte-packing, achieving a 10-fold decrease in memory usage over
COO and 7.5-fold decrease over CSC. Our benchmarks on simulated and real data
show that VCSC and IVCSC can be read in compressed form with little added
computational cost. These two novel compression formats offer a broadly useful
solution to encoding and reading redundant sparse data.
- Abstract(参考訳): Compressed Sparse Column (CSC) と Coordinate (COO) はスパース行列の一般的な圧縮フォーマットである。
しかし、CSCとCOOはどちらも汎用的であり、データ冗長性のような疎性以外のデータの性質を活用できない。
高冗長なスパースデータは、ゲノミクスなどの多くの機械学習アプリケーションで一般的であり、従来のスパースストレージフォーマットを使用したインコア計算には大きすぎることが多い。
本稿では,(1)値圧縮スパースカラム(VCSC)と(2)指数圧縮スパースカラム(IVCSC)の2つの拡張について述べる。
VCSCはコラム内の高い冗長性を生かし、3倍のデータをCOOで圧縮し、2.25倍のデータをCSCで圧縮する。
IVCSCは、デルタエンコーディングとバイトパッキングを通じてインデックス配列を圧縮することでVCSCを拡張し、COOよりもメモリ使用量が10倍、CSCより7.5倍減少する。
シミュレーションおよび実データに関するベンチマークでは,VCSCとVCSCを圧縮形式で読み取ることができるが,計算コストは少ない。
これら2つの新しい圧縮フォーマットは、冗長なスパースデータのエンコーディングと読み出しに広く有用なソリューションを提供する。
関連論文リスト
- Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models [28.16603647353951]
AQUA-KVは、コンパクトアダプタに依存するキーバリューキャッシュの適応量子化である。
パープレキシティとLongBenchスコアの相対誤差を1%以下の値で2-2.5ビットで近似する。
論文 参考訳(メタデータ) (2025-01-31T18:47:42Z) - Learned Compression of Nonlinear Time Series With Random Access [2.564905016909138]
時系列は金融、医療、産業、環境モニタリングなど多くの分野で重要な役割を果たしている。
我々は、時系列を非線形関数列に近似するランダムアクセス可能な圧縮スキームNeaTSを紹介する。
実験の結果,NeaTSは最先端の損失圧縮機の圧縮比を最大14%向上することがわかった。
論文 参考訳(メタデータ) (2024-12-20T10:30:06Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - UniCompress: Enhancing Multi-Data Medical Image Compression with Knowledge Distillation [59.3877309501938]
Inlicit Neural Representation (INR) ネットワークは、その柔軟な圧縮比のため、顕著な汎用性を示している。
周波数領域情報を含むコードブックをINRネットワークへの事前入力として導入する。
これにより、INRの表現力が向上し、異なる画像ブロックに対して特異な条件付けが提供される。
論文 参考訳(メタデータ) (2024-05-27T05:52:13Z) - LeCo: Lightweight Compression via Learning Serial Correlations [9.108815508920882]
軽量データ圧縮は、カラムストアが分析クエリのパフォーマンスを向上する鍵となる技術である。
本稿では,機械学習を用いて値列内のシリアル冗長性を自動的に除去するフレームワークであるLeCo(Learned Compression)を提案する。
我々は、Arrow列実行エンジンのデータ解析クエリで最大5.2倍のスピードで、RocksDBのスループットが16%向上するのを観察した。
論文 参考訳(メタデータ) (2023-06-27T10:46:36Z) - Dynamic Point Cloud Compression with Cross-Sectional Approach [10.850101961203748]
MPEGはV-PCCとして知られるビデオベースのPoint Cloud Compression標準を確定した。
提案手法は,新しい断面法を用いて,これらの制約に対処する。
標準ビデオシーケンスを用いた実験結果から,幾何学的およびテクスチャ的データの両方において,提案手法がより良い圧縮を実現することを示す。
論文 参考訳(メタデータ) (2022-04-25T02:58:18Z) - Efficient Data Compression for 3D Sparse TPC via Bicephalous
Convolutional Autoencoder [8.759778406741276]
この研究は、textitBicephalous Convolutional AutoEncoder (BCAE)と呼ばれる、空間と回帰を同時に解決するデュアルヘッドオートエンコーダを導入している。
これはMGARD、SZ、ZFPといった従来のデータ圧縮手法と比較して圧縮忠実度と比の両方の利点を示している。
論文 参考訳(メタデータ) (2021-11-09T21:26:37Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。