論文の概要: Scalable Hybrid Learning Techniques for Scientific Data Compression
- arxiv url: http://arxiv.org/abs/2212.10733v1
- Date: Wed, 21 Dec 2022 03:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:22:45.967924
- Title: Scalable Hybrid Learning Techniques for Scientific Data Compression
- Title(参考訳): 科学データ圧縮のためのスケーラブルハイブリッド学習技術
- Authors: Tania Banerjee, Jong Choi, Jaemoon Lee, Qian Gong, Jieyang Chen, Scott
Klasky, Anand Rangarajan, Sanjay Ranka
- Abstract要約: 科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする
本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 6.803722400888276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data compression is becoming critical for storing scientific data because
many scientific applications need to store large amounts of data and post
process this data for scientific discovery. Unlike image and video compression
algorithms that limit errors to primary data, scientists require compression
techniques that accurately preserve derived quantities of interest (QoIs). This
paper presents a physics-informed compression technique implemented as an
end-to-end, scalable, GPU-based pipeline for data compression that addresses
this requirement. Our hybrid compression technique combines machine learning
techniques and standard compression methods. Specifically, we combine an
autoencoder, an error-bounded lossy compressor to provide guarantees on raw
data error, and a constraint satisfaction post-processing step to preserve the
QoIs within a minimal error (generally less than floating point error).
The effectiveness of the data compression pipeline is demonstrated by
compressing nuclear fusion simulation data generated by a large-scale fusion
code, XGC, which produces hundreds of terabytes of data in a single day. Our
approach works within the ADIOS framework and results in compression by a
factor of more than 150 while requiring only a few percent of the computational
resources necessary for generating the data, making the overall approach highly
effective for practical scenarios.
- Abstract(参考訳): 多くの科学アプリケーションは、大量のデータを保存し、科学的な発見のためにこのデータを後処理する必要がある。
一次データにエラーを制限する画像圧縮アルゴリズムやビデオ圧縮アルゴリズムとは異なり、科学者は派生した関心量(qois)を正確に保存する圧縮技術を必要とする。
本稿では,データ圧縮のためのエンドツーエンド,スケーラブルなgpuベースのパイプラインとして実装した,物理に変形した圧縮技術を提案する。
我々のハイブリッド圧縮技術は,機械学習技術と標準圧縮手法を組み合わせたものである。
具体的には、オートエンコーダと、生データエラーの保証を提供するエラーバウンド損失圧縮機と、QoIを最小限のエラー(一般に浮動小数点誤差より小さい)で保存するための制約満足後処理ステップを組み合わせる。
データ圧縮パイプラインの有効性は、大規模な核融合コードであるXGCによって生成された核融合シミュレーションデータを1日で数百テラバイトのデータを生成することで実証される。
我々のアプローチはADIOSフレームワーク内で動作し、データ生成に必要な計算リソースのわずか数パーセントしか必要とせず、150倍の圧縮率で結果が得られます。
関連論文リスト
- Variable Rate Neural Compression for Sparse Detector Data [9.331686712558144]
本稿では,スパース畳み込みによるキーポイント識別によるTPCデータ圧縮手法を提案する。
BCAE-VSは、以前の最先端モデルよりも圧縮率を10%高め、再構築精度を75%高めている。
論文 参考訳(メタデータ) (2024-11-18T17:15:35Z) - Lightweight Correlation-Aware Table Compression [58.50312417249682]
$texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
論文 参考訳(メタデータ) (2024-10-17T22:28:07Z) - Enhancing Lossy Compression Through Cross-Field Information for Scientific Applications [11.025583805165455]
ロスシー圧縮は、複数のデータフィールドを含む科学データのサイズを減らす最も効果的な方法の1つである。
従来のアプローチでは、ターゲットデータポイントを予測する際に、単一のターゲットフィールドからのローカル情報を使用し、より高い圧縮比を達成する可能性を制限する。
本稿では,CNNを用いた新たなハイブリッド予測モデルを提案する。
論文 参考訳(メタデータ) (2024-09-26T21:06:53Z) - Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。
本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T07:48:00Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - SRN-SZ: Deep Leaning-Based Scientific Error-bounded Lossy Compression
with Super-resolution Neural Networks [13.706955134941385]
本研究では,SRN-SZを提案する。
SRN-SZはその圧縮に最も高度な超解像ネットワークHATを適用している。
実験では、SRN-SZは最大75%の圧縮比の改善を同じ誤差境界下で達成する。
論文 参考訳(メタデータ) (2023-09-07T22:15:32Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - Exploring Autoencoder-based Error-bounded Compression for Scientific
Data [14.724393511470225]
我々は,SZモデルの観点から,エラーバウンドオートエンコーダベースのフレームワークを開発する。
設計したAEベースエラーバウンド圧縮フレームワークの主段の圧縮品質を最適化する。
論文 参考訳(メタデータ) (2021-05-25T07:53:32Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。