論文の概要: DeepSketch: A New Machine Learning-Based Reference Search Technique for
Post-Deduplication Delta Compression
- arxiv url: http://arxiv.org/abs/2202.10584v1
- Date: Thu, 17 Feb 2022 16:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-27 18:35:53.510617
- Title: DeepSketch: A New Machine Learning-Based Reference Search Technique for
Post-Deduplication Delta Compression
- Title(参考訳): deepsketch - 拡散デルタ圧縮のための新しい機械学習に基づく参照探索手法
- Authors: Jisung Park, Jeoggyun Kim, Yeseong Kim, Sungjin Lee, Onur Mutlu
- Abstract要約: 本稿では,DeepSketchを提案する。DeepSketchは,復号後デルタ圧縮のための新しい参照検索手法である。
DeepSketchはディープニューラルネットワークを使用して、データブロックのスケッチ、すなわちブロックの近似データシグネチャを生成する。
評価の結果,DeepSketchは,最先端のデルタ圧縮技術よりも最大で33%(平均21%)の削減率向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 20.311114684028375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data reduction in storage systems is becoming increasingly important as an
effective solution to minimize the management cost of a data center. To
maximize data-reduction efficiency, existing post-deduplication
delta-compression techniques perform delta compression along with traditional
data deduplication and lossless compression. Unfortunately, we observe that
existing techniques achieve significantly lower data-reduction ratios than the
optimal due to their limited accuracy in identifying similar data blocks.
In this paper, we propose DeepSketch, a new reference search technique for
post-deduplication delta compression that leverages the learning-to-hash method
to achieve higher accuracy in reference search for delta compression, thereby
improving data-reduction efficiency. DeepSketch uses a deep neural network to
extract a data block's sketch, i.e., to create an approximate data signature of
the block that can preserve similarity with other blocks. Our evaluation using
eleven real-world workloads shows that DeepSketch improves the data-reduction
ratio by up to 33% (21% on average) over a state-of-the-art post-deduplication
delta-compression technique.
- Abstract(参考訳): データセンターの管理コストを最小限に抑える効果的なソリューションとして,ストレージシステムのデータ削減がますます重要になっている。
データリダクション効率を最大化するため、既存の後拡散デルタ圧縮技術では、従来のデータ重複やロスレス圧縮とともにデルタ圧縮を行う。
残念なことに、類似したデータブロックを識別する際の精度が限られているため、既存の手法は最適値よりも大幅に低いデータ引き込み比を実現している。
本稿では,差分圧縮の参照探索における高い精度を達成するために,学習からハッシュへの手法を活用し,データリダクション効率の向上を図る,ディバイス後のデルタ圧縮のための新しい参照探索手法であるdeepsketchを提案する。
deepsketchはディープニューラルネットワークを使用して、データブロックのスケッチ、すなわち他のブロックとの類似性を保存するブロックの近似データシグネチャを生成する。
実世界の11のワークロードを用いた評価から,deepsketchは最先端のデルタ圧縮技術に対して,データ還元率を最大33%(平均21%)向上させることがわかった。
関連論文リスト
- ODDN: Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks [51.03118447290247]
オープンワールドデータアグリゲーション(ODA)と圧縮・ディスカード勾配補正(CGC)を組み合わせたオープンワールドディープフェイク検出ネットワーク(ODDN)を提案する。
細粒度分析と粗粒度分析の両方により,ODAは圧縮試料と原試料の相関関係を効果的に集約する。
CGCは、オンラインソーシャルネットワーク(OSN)における多種多様な圧縮方法のパフォーマンス向上のために、圧縮・ディスカード勾配補正を組み込んだ。
論文 参考訳(メタデータ) (2024-10-24T12:32:22Z) - Attention Based Machine Learning Methods for Data Reduction with Guaranteed Error Bounds [11.494915987840876]
高エネルギー物理学のような分野における科学的応用は、高速度で大量のデータを生成する。
この課題に対処するためには、データ圧縮や削減技術が不可欠である。
本稿では,ブロックワイズ圧縮を用いたアテンションベース圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-09-09T06:35:24Z) - Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。
本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T07:48:00Z) - Understanding The Effectiveness of Lossy Compression in Machine Learning Training Sets [7.261516807130813]
機械学習と人工知能(ML/AI)技術は、ハイパフォーマンスコンピューティングでますます普及している。
データ圧縮はこれらの問題の解決策となり得るが、損失圧縮がモデル品質にどのように影響するかを深く理解する必要がある。
現代の損失圧縮手法は、品質の1%以下の損失に対して、50-100倍圧縮率の改善を達成できることを示す。
論文 参考訳(メタデータ) (2024-03-23T23:14:37Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Scalable Hybrid Learning Techniques for Scientific Data Compression [6.803722400888276]
科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする
本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-12-21T03:00:18Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - Efficient Data Compression for 3D Sparse TPC via Bicephalous
Convolutional Autoencoder [8.759778406741276]
この研究は、textitBicephalous Convolutional AutoEncoder (BCAE)と呼ばれる、空間と回帰を同時に解決するデュアルヘッドオートエンコーダを導入している。
これはMGARD、SZ、ZFPといった従来のデータ圧縮手法と比較して圧縮忠実度と比の両方の利点を示している。
論文 参考訳(メタデータ) (2021-11-09T21:26:37Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。