論文の概要: Attention Based Machine Learning Methods for Data Reduction with Guaranteed Error Bounds
- arxiv url: http://arxiv.org/abs/2409.05357v1
- Date: Mon, 9 Sep 2024 06:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 15:40:55.228353
- Title: Attention Based Machine Learning Methods for Data Reduction with Guaranteed Error Bounds
- Title(参考訳): 保証誤差境界によるデータ削減のための注意に基づく機械学習手法
- Authors: Xiao Li, Jaemoon Lee, Anand Rangarajan, Sanjay Ranka,
- Abstract要約: 高エネルギー物理学のような分野における科学的応用は、高速度で大量のデータを生成する。
この課題に対処するためには、データ圧縮や削減技術が不可欠である。
本稿では,ブロックワイズ圧縮を用いたアテンションベース圧縮手法を提案する。
- 参考スコア(独自算出の注目度): 11.494915987840876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific applications in fields such as high energy physics, computational fluid dynamics, and climate science generate vast amounts of data at high velocities. This exponential growth in data production is surpassing the advancements in computing power, network capabilities, and storage capacities. To address this challenge, data compression or reduction techniques are crucial. These scientific datasets have underlying data structures that consist of structured and block structured multidimensional meshes where each grid point corresponds to a tensor. It is important that data reduction techniques leverage strong spatial and temporal correlations that are ubiquitous in these applications. Additionally, applications such as CFD, process tensors comprising hundred plus species and their attributes at each grid point. Reduction techniques should be able to leverage interrelationships between the elements in each tensor. In this paper, we propose an attention-based hierarchical compression method utilizing a block-wise compression setup. We introduce an attention-based hyper-block autoencoder to capture inter-block correlations, followed by a block-wise encoder to capture block-specific information. A PCA-based post-processing step is employed to guarantee error bounds for each data block. Our method effectively captures both spatiotemporal and inter-variable correlations within and between data blocks. Compared to the state-of-the-art SZ3, our method achieves up to 8 times higher compression ratio on the multi-variable S3D dataset. When evaluated on single-variable setups using the E3SM and XGC datasets, our method still achieves up to 3 times and 2 times higher compression ratio, respectively.
- Abstract(参考訳): 高エネルギー物理学、計算流体力学、気候科学などの分野における科学的応用は、高速度で大量のデータを生成する。
データ生産の急激な成長は、コンピューティングパワー、ネットワーク能力、ストレージ能力の進歩を超越している。
この課題に対処するためには、データ圧縮や削減技術が不可欠である。
これらの科学的データセットは、各格子点がテンソルに対応する構造的およびブロック的多次元メッシュからなる基盤データ構造を持つ。
データリダクション技術は、これらの応用においてユビキタスな強い空間的・時間的相関を利用することが重要である。
さらに、CFDのようなアプリケーション、100以上の種とそれらの属性からなるプロセステンソルをグリッドポイント毎に適用する。
還元技術は各テンソルの要素間の相互関係を活用できるはずである。
本稿では,ブロック単位の圧縮設定を用いた注目に基づく階層圧縮手法を提案する。
本稿では,ブロック間相関をキャプチャするアテンションベースハイパーブロックオートエンコーダと,ブロック固有情報をキャプチャするブロックワイドエンコーダを提案する。
PCAベースの後処理ステップを使用して、各データブロックのエラー境界を保証する。
提案手法は,データブロック内およびデータブロック間の時空間的および時空間的相関を効果的に取得する。
現状のSZ3と比較して,本手法は多変数S3Dデータセットの最大8倍の圧縮比を達成できる。
E3SMデータセットとXGCデータセットを用いて単変量設定で評価すると, 圧縮比が最大3倍, 圧縮比が2倍になる。
関連論文リスト
- Variable Rate Neural Compression for Sparse Detector Data [9.331686712558144]
本稿では,スパース畳み込みによるキーポイント識別によるTPCデータ圧縮手法を提案する。
BCAE-VSは、以前の最先端モデルよりも圧縮率を10%高め、再構築精度を75%高めている。
論文 参考訳(メタデータ) (2024-11-18T17:15:35Z) - Machine Learning Techniques for Data Reduction of CFD Applications [10.881548113461493]
本稿では,科学的結果の低減に相関を利用した保証ブロックオートエンコーダを提案する。
入力と出力の両方にテンソルの多次元ブロック(CFD)を使用する。
論文 参考訳(メタデータ) (2024-04-28T04:01:09Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Scalable Hybrid Learning Techniques for Scientific Data Compression [6.803722400888276]
科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする
本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-12-21T03:00:18Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - DeepSketch: A New Machine Learning-Based Reference Search Technique for
Post-Deduplication Delta Compression [20.311114684028375]
本稿では,DeepSketchを提案する。DeepSketchは,復号後デルタ圧縮のための新しい参照検索手法である。
DeepSketchはディープニューラルネットワークを使用して、データブロックのスケッチ、すなわちブロックの近似データシグネチャを生成する。
評価の結果,DeepSketchは,最先端のデルタ圧縮技術よりも最大で33%(平均21%)の削減率向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-02-17T16:00:22Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - Efficient Data Compression for 3D Sparse TPC via Bicephalous
Convolutional Autoencoder [8.759778406741276]
この研究は、textitBicephalous Convolutional AutoEncoder (BCAE)と呼ばれる、空間と回帰を同時に解決するデュアルヘッドオートエンコーダを導入している。
これはMGARD、SZ、ZFPといった従来のデータ圧縮手法と比較して圧縮忠実度と比の両方の利点を示している。
論文 参考訳(メタデータ) (2021-11-09T21:26:37Z) - Federated Doubly Stochastic Kernel Learning for Vertically Partitioned
Data [93.76907759950608]
本稿では,垂直分割データに対する2倍のカーネル学習アルゴリズムを提案する。
本稿では,FDSKLがカーネルを扱う場合,最先端のフェデレーション学習手法よりもはるかに高速であることを示す。
論文 参考訳(メタデータ) (2020-08-14T05:46:56Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Spatial Information Guided Convolution for Real-Time RGBD Semantic
Segmentation [79.78416804260668]
本稿では,効率的なRGB機能と3次元空間情報統合を実現するための空間情報ガイドコンボリューション(S-Conv)を提案する。
S-Convは、3次元空間情報によって導かれる畳み込みカーネルのサンプリングオフセットを推測する能力を有する。
我々はさらにS-Convを空間情報ガイド畳み込みネットワーク(SGNet)と呼ばれるセグメンテーションネットワークに組み込みます。
論文 参考訳(メタデータ) (2020-04-09T13:38:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。