論文の概要: Scalable Hybrid Learning Techniques for Scientific Data Compression
- arxiv url: http://arxiv.org/abs/2212.10733v1
- Date: Wed, 21 Dec 2022 03:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:22:45.967924
- Title: Scalable Hybrid Learning Techniques for Scientific Data Compression
- Title(参考訳): 科学データ圧縮のためのスケーラブルハイブリッド学習技術
- Authors: Tania Banerjee, Jong Choi, Jaemoon Lee, Qian Gong, Jieyang Chen, Scott
Klasky, Anand Rangarajan, Sanjay Ranka
- Abstract要約: 科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする
本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 6.803722400888276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data compression is becoming critical for storing scientific data because
many scientific applications need to store large amounts of data and post
process this data for scientific discovery. Unlike image and video compression
algorithms that limit errors to primary data, scientists require compression
techniques that accurately preserve derived quantities of interest (QoIs). This
paper presents a physics-informed compression technique implemented as an
end-to-end, scalable, GPU-based pipeline for data compression that addresses
this requirement. Our hybrid compression technique combines machine learning
techniques and standard compression methods. Specifically, we combine an
autoencoder, an error-bounded lossy compressor to provide guarantees on raw
data error, and a constraint satisfaction post-processing step to preserve the
QoIs within a minimal error (generally less than floating point error).
The effectiveness of the data compression pipeline is demonstrated by
compressing nuclear fusion simulation data generated by a large-scale fusion
code, XGC, which produces hundreds of terabytes of data in a single day. Our
approach works within the ADIOS framework and results in compression by a
factor of more than 150 while requiring only a few percent of the computational
resources necessary for generating the data, making the overall approach highly
effective for practical scenarios.
- Abstract(参考訳): 多くの科学アプリケーションは、大量のデータを保存し、科学的な発見のためにこのデータを後処理する必要がある。
一次データにエラーを制限する画像圧縮アルゴリズムやビデオ圧縮アルゴリズムとは異なり、科学者は派生した関心量(qois)を正確に保存する圧縮技術を必要とする。
本稿では,データ圧縮のためのエンドツーエンド,スケーラブルなgpuベースのパイプラインとして実装した,物理に変形した圧縮技術を提案する。
我々のハイブリッド圧縮技術は,機械学習技術と標準圧縮手法を組み合わせたものである。
具体的には、オートエンコーダと、生データエラーの保証を提供するエラーバウンド損失圧縮機と、QoIを最小限のエラー(一般に浮動小数点誤差より小さい)で保存するための制約満足後処理ステップを組み合わせる。
データ圧縮パイプラインの有効性は、大規模な核融合コードであるXGCによって生成された核融合シミュレーションデータを1日で数百テラバイトのデータを生成することで実証される。
我々のアプローチはADIOSフレームワーク内で動作し、データ生成に必要な計算リソースのわずか数パーセントしか必要とせず、150倍の圧縮率で結果が得られます。
関連論文リスト
- Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Neural-based Compression Scheme for Solar Image Data [8.374518151411612]
我々は、NASAのデータ集約画像ミッションで使用されるニューラルネットワークに基づく損失圧縮手法を提案する。
本研究では,画像の局所構造と大域構造の両方を捉えるために,局所的および非局所的アテンションモジュールを備えた逆トレーニングニューラルネットワークを提案する。
このアルゴリズムをSDOデータ解析に使用するための概念実証として、圧縮画像を用いてコロナホール(CH)検出を行った。
論文 参考訳(メタデータ) (2023-11-06T04:13:58Z) - SRN-SZ: Deep Leaning-Based Scientific Error-bounded Lossy Compression
with Super-resolution Neural Networks [13.706955134941385]
本研究では,SRN-SZを提案する。
SRN-SZはその圧縮に最も高度な超解像ネットワークHATを適用している。
実験では、SRN-SZは最大75%の圧縮比の改善を同じ誤差境界下で達成する。
論文 参考訳(メタデータ) (2023-09-07T22:15:32Z) - Hierarchical Autoencoder-based Lossy Compression for Large-scale
High-resolution Scientific Data [1.847740135967371]
この研究は、大規模な科学的データを著しく圧縮し、高い再構成品質を維持するニューラルネットワークを示す。
提案モデルは,大規模高分解能気候モデルデータセットに適用可能な科学ベンチマークデータを用いて検証した。
本モデルでは,再構成品質を損なうことなく,複数のベンチマークデータセットに対して140の圧縮比を達成している。
論文 参考訳(メタデータ) (2023-07-09T16:11:02Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - DeepSketch: A New Machine Learning-Based Reference Search Technique for
Post-Deduplication Delta Compression [20.311114684028375]
本稿では,DeepSketchを提案する。DeepSketchは,復号後デルタ圧縮のための新しい参照検索手法である。
DeepSketchはディープニューラルネットワークを使用して、データブロックのスケッチ、すなわちブロックの近似データシグネチャを生成する。
評価の結果,DeepSketchは,最先端のデルタ圧縮技術よりも最大で33%(平均21%)の削減率向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-02-17T16:00:22Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - Exploring Autoencoder-based Error-bounded Compression for Scientific
Data [14.724393511470225]
我々は,SZモデルの観点から,エラーバウンドオートエンコーダベースのフレームワークを開発する。
設計したAEベースエラーバウンド圧縮フレームワークの主段の圧縮品質を最適化する。
論文 参考訳(メタデータ) (2021-05-25T07:53:32Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。