論文の概要: Relationship-aware Multivariate Sampling Strategy for Scientific
Simulation Data
- arxiv url: http://arxiv.org/abs/2008.13306v1
- Date: Mon, 31 Aug 2020 00:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 06:51:56.308892
- Title: Relationship-aware Multivariate Sampling Strategy for Scientific
Simulation Data
- Title(参考訳): 科学シミュレーションデータの関連性を考慮した多変量サンプリング戦略
- Authors: Subhashis Hazarika, Ayan Biswas, Phillip J. Wolfram, Earl Lawrence,
Nathan Urban
- Abstract要約: 本研究では,元の変数関係を保存する多変量サンプリング戦略を提案する。
提案手法は主成分分析を用いて多変量データの分散を抽出し, 単一変数に対する既存の最先端サンプリングアルゴリズム上に構築することができる。
- 参考スコア(独自算出の注目度): 4.2855912967712815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing computational power of current supercomputers, the size
of data produced by scientific simulations is rapidly growing. To reduce the
storage footprint and facilitate scalable post-hoc analyses of such scientific
data sets, various data reduction/summarization methods have been proposed over
the years. Different flavors of sampling algorithms exist to sample the
high-resolution scientific data, while preserving important data properties
required for subsequent analyses. However, most of these sampling algorithms
are designed for univariate data and cater to post-hoc analyses of single
variables. In this work, we propose a multivariate sampling strategy which
preserves the original variable relationships and enables different
multivariate analyses directly on the sampled data. Our proposed strategy
utilizes principal component analysis to capture the variance of multivariate
data and can be built on top of any existing state-of-the-art sampling
algorithms for single variables. In addition, we also propose variants of
different data partitioning schemes (regular and irregular) to efficiently
model the local multivariate relationships. Using two real-world multivariate
data sets, we demonstrate the efficacy of our proposed multivariate sampling
strategy with respect to its data reduction capabilities as well as the ease of
performing efficient post-hoc multivariate analyses.
- Abstract(参考訳): 現在のスーパーコンピュータの計算能力の増大に伴い、科学シミュレーションによって生成されたデータのサイズは急速に増大している。
このような科学的データセットのストレージフットプリントを削減し、スケーラブルなポストホック解析を容易にするため、長年にわたり様々なデータ削減/要約手法が提案されてきた。
サンプリングアルゴリズムの異なるフレーバーは、高解像度の科学的データをサンプリングし、その後の分析に必要な重要なデータ特性を保存する。
しかし、これらのサンプリングアルゴリズムのほとんどは、単変量データのために設計され、単一変数のポストホック解析を行う。
本研究では,元の変数関係を保存し,サンプルデータ上で異なる多変量解析を可能にする多変量サンプリング戦略を提案する。
提案手法は主成分分析を用いて多変量データの分散を抽出し, 単一変数に対する既存の最先端サンプリングアルゴリズム上に構築することができる。
さらに,局所的多変量関係を効率的にモデル化するために,異なるデータ分割方式(正規および不規則)の変種を提案する。
実世界の2つの多変量データセットを用いて,提案した多変量サンプリング手法の有効性と,効率的なポストホック多変量解析の容易性を示す。
関連論文リスト
- Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - Sparse outlier-robust PCA for multi-source data [2.3226893628361687]
そこで本研究では,重要な特徴と局所的なソース固有パターンを同時に選択する新しいPCA手法を提案する。
我々は,グローバルな局所構造的空間パターンに対応するペナルティを持つ正規化問題を開発する。
本稿では,乗算器の交互方向法による提案手法の効率的な実装について述べる。
論文 参考訳(メタデータ) (2024-07-23T08:55:03Z) - Analysing Multi-Task Regression via Random Matrix Theory with Application to Time Series Forecasting [16.640336442849282]
我々は,マルチタスク最適化問題を正規化手法として定式化し,マルチタスク学習情報を活用することを可能とする。
線形モデルの文脈におけるマルチタスク最適化のための閉形式解を導出する。
論文 参考訳(メタデータ) (2024-06-14T17:59:25Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Multi-Task Learning with Summary Statistics [4.871473117968554]
様々な情報源からの要約統計を利用した柔軟なマルチタスク学習フレームワークを提案する。
また,Lepskiの手法の変種に基づく適応パラメータ選択手法を提案する。
この研究は、さまざまな領域にわたる関連するモデルをトレーニングするための、より柔軟なツールを提供する。
論文 参考訳(メタデータ) (2023-07-05T15:55:23Z) - Multivariate regression modeling in integrative analysis via sparse
regularization [0.0]
統合分析は、複数の独立したデータセットから有用な情報をプールする効果的な方法である。
この積分は、変数とグループ選択を実行するスパース推定によって達成される。
提案手法の性能をモンテカルロシミュレーションおよび微生物測定による排水処理データの解析により実証した。
論文 参考訳(メタデータ) (2023-04-15T02:27:51Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Privacy-preserving Logistic Regression with Secret Sharing [0.0]
Newton-Raphson法を用いて秘密共有型プライバシー保護ロジスティック回帰プロトコルを提案する。
提案手法は,複数ソースからのロジスティック回帰を安全にトレーニングするために,大規模なデータセットを処理可能であることを示す。
論文 参考訳(メタデータ) (2021-05-14T14:53:50Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Deep Representational Similarity Learning for analyzing neural
signatures in task-based fMRI dataset [81.02949933048332]
本稿では、表現類似度分析(RSA)の深部拡張であるDRSL(Deep Representational similarity Learning)を開発する。
DRSLは、多数の被験者を持つfMRIデータセットにおける様々な認知タスク間の類似性を分析するのに適している。
論文 参考訳(メタデータ) (2020-09-28T18:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。