論文の概要: Understanding The Effectiveness of Lossy Compression in Machine Learning Training Sets
- arxiv url: http://arxiv.org/abs/2403.15953v1
- Date: Sat, 23 Mar 2024 23:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:22:33.308122
- Title: Understanding The Effectiveness of Lossy Compression in Machine Learning Training Sets
- Title(参考訳): 機械学習学習セットにおけるロッシー圧縮の有効性の理解
- Authors: Robert Underwood, Jon C. Calhoun, Sheng Di, Franck Cappello,
- Abstract要約: 機械学習と人工知能(ML/AI)技術は、ハイパフォーマンスコンピューティングでますます普及している。
データ圧縮はこれらの問題の解決策となり得るが、損失圧縮がモデル品質にどのように影響するかを深く理解する必要がある。
現代の損失圧縮手法は、品質の1%以下の損失に対して、50-100倍圧縮率の改善を達成できることを示す。
- 参考スコア(独自算出の注目度): 7.261516807130813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning and Artificial Intelligence (ML/AI) techniques have become increasingly prevalent in high performance computing (HPC). However, these methods depend on vast volumes of floating point data for training and validation which need methods to share the data on a wide area network (WAN) or to transfer it from edge devices to data centers. Data compression can be a solution to these problems, but an in-depth understanding of how lossy compression affects model quality is needed. Prior work largely considers a single application or compression method. We designed a systematic methodology for evaluating data reduction techniques for ML/AI, and we use it to perform a very comprehensive evaluation with 17 data reduction methods on 7 ML/AI applications to show modern lossy compression methods can achieve a 50-100x compression ratio improvement for a 1% or less loss in quality. We identify critical insights that guide the future use and design of lossy compressors for ML/AI.
- Abstract(参考訳): 機械学習と人工知能(ML/AI)技術は、ハイパフォーマンスコンピューティング(HPC)でますます普及している。
しかし、これらの手法は、広域ネットワーク(WAN)上でデータを共有したり、エッジデバイスからデータセンターに転送するための方法を必要とする、訓練と検証のための大量の浮動小数点データに依存する。
データ圧縮はこれらの問題の解決策となり得るが、損失圧縮がモデル品質にどのように影響するかを深く理解する必要がある。
以前の作業では、主に単一のアプリケーションや圧縮方法が検討されていた。
我々はML/AIにおけるデータ削減手法を評価するための体系的な手法を設計し、7つのML/AIアプリケーション上で17個のデータ削減手法を用いて非常に包括的な評価を行い、現代の損失圧縮手法が品質の1%以下で50-100倍の圧縮比改善を達成できることを示す。
ML/AIの損失圧縮機の将来的利用と設計を導く重要な知見を同定する。
関連論文リスト
- GWLZ: A Group-wise Learning-based Lossy Compression Framework for Scientific Data [14.92764869276237]
本稿では,GWLZを提案する。GWLZは,複数の軽量学習可能エンハンサモデルを備えたグループ学習型損失圧縮フレームワークである。
本稿では,GWLZが圧縮効率に悪影響を及ぼすことなく,圧縮されたデータ再構成品質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-04-20T21:12:53Z) - Probing Image Compression For Class-Incremental Learning [8.711266563753846]
連続機械学習(ML)システムは、前もって学習したデータのパフォーマンスを維持するために、メモリ制限内に代表サンプル(例題としても知られる)を格納することに依存する。
本稿では,バッファの容量を増大させる戦略として画像圧縮を利用する方法を検討する。
本稿では,事前処理データ圧縮ステップと効率的な圧縮率/アルゴリズム選択方法を含む連続MLのための画像圧縮を組み込む新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-10T18:58:14Z) - Fundamental Limits of Two-layer Autoencoders, and Achieving Them with
Gradient Methods [91.54785981649228]
本稿では,非線形二層型オートエンコーダについて述べる。
本結果は,人口リスクの最小化要因を特徴付け,その最小化要因が勾配法によって達成されることを示す。
符号アクティベーション関数の特別な場合において、この解析は、シャローオートエンコーダによるガウス音源の損失圧縮の基本的な限界を確立する。
論文 参考訳(メタデータ) (2022-12-27T12:37:34Z) - Scalable Hybrid Learning Techniques for Scientific Data Compression [6.803722400888276]
科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする
本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-12-21T03:00:18Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - DeepSketch: A New Machine Learning-Based Reference Search Technique for
Post-Deduplication Delta Compression [20.311114684028375]
本稿では,DeepSketchを提案する。DeepSketchは,復号後デルタ圧縮のための新しい参照検索手法である。
DeepSketchはディープニューラルネットワークを使用して、データブロックのスケッチ、すなわちブロックの近似データシグネチャを生成する。
評価の結果,DeepSketchは,最先端のデルタ圧縮技術よりも最大で33%(平均21%)の削減率向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-02-17T16:00:22Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。