論文の概要: Understanding The Effectiveness of Lossy Compression in Machine Learning Training Sets
- arxiv url: http://arxiv.org/abs/2403.15953v1
- Date: Sat, 23 Mar 2024 23:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:22:33.308122
- Title: Understanding The Effectiveness of Lossy Compression in Machine Learning Training Sets
- Title(参考訳): 機械学習学習セットにおけるロッシー圧縮の有効性の理解
- Authors: Robert Underwood, Jon C. Calhoun, Sheng Di, Franck Cappello,
- Abstract要約: 機械学習と人工知能(ML/AI)技術は、ハイパフォーマンスコンピューティングでますます普及している。
データ圧縮はこれらの問題の解決策となり得るが、損失圧縮がモデル品質にどのように影響するかを深く理解する必要がある。
現代の損失圧縮手法は、品質の1%以下の損失に対して、50-100倍圧縮率の改善を達成できることを示す。
- 参考スコア(独自算出の注目度): 7.261516807130813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning and Artificial Intelligence (ML/AI) techniques have become increasingly prevalent in high performance computing (HPC). However, these methods depend on vast volumes of floating point data for training and validation which need methods to share the data on a wide area network (WAN) or to transfer it from edge devices to data centers. Data compression can be a solution to these problems, but an in-depth understanding of how lossy compression affects model quality is needed. Prior work largely considers a single application or compression method. We designed a systematic methodology for evaluating data reduction techniques for ML/AI, and we use it to perform a very comprehensive evaluation with 17 data reduction methods on 7 ML/AI applications to show modern lossy compression methods can achieve a 50-100x compression ratio improvement for a 1% or less loss in quality. We identify critical insights that guide the future use and design of lossy compressors for ML/AI.
- Abstract(参考訳): 機械学習と人工知能(ML/AI)技術は、ハイパフォーマンスコンピューティング(HPC)でますます普及している。
しかし、これらの手法は、広域ネットワーク(WAN)上でデータを共有したり、エッジデバイスからデータセンターに転送するための方法を必要とする、訓練と検証のための大量の浮動小数点データに依存する。
データ圧縮はこれらの問題の解決策となり得るが、損失圧縮がモデル品質にどのように影響するかを深く理解する必要がある。
以前の作業では、主に単一のアプリケーションや圧縮方法が検討されていた。
我々はML/AIにおけるデータ削減手法を評価するための体系的な手法を設計し、7つのML/AIアプリケーション上で17個のデータ削減手法を用いて非常に包括的な評価を行い、現代の損失圧縮手法が品質の1%以下で50-100倍の圧縮比改善を達成できることを示す。
ML/AIの損失圧縮機の将来的利用と設計を導く重要な知見を同定する。
関連論文リスト
- CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。
我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文 参考訳(メタデータ) (2024-12-21T00:40:58Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。
本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T07:48:00Z) - Scalable Hybrid Learning Techniques for Scientific Data Compression [6.803722400888276]
科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする
本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-12-21T03:00:18Z) - DeepSketch: A New Machine Learning-Based Reference Search Technique for
Post-Deduplication Delta Compression [20.311114684028375]
本稿では,DeepSketchを提案する。DeepSketchは,復号後デルタ圧縮のための新しい参照検索手法である。
DeepSketchはディープニューラルネットワークを使用して、データブロックのスケッチ、すなわちブロックの近似データシグネチャを生成する。
評価の結果,DeepSketchは,最先端のデルタ圧縮技術よりも最大で33%(平均21%)の削減率向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-02-17T16:00:22Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。