論文の概要: Spatial best linear unbiased prediction: A computational mathematics approach for high dimensional massive datasets
- arxiv url: http://arxiv.org/abs/1701.00285v3
- Date: Wed, 24 Apr 2024 13:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-28 14:58:07.024204
- Title: Spatial best linear unbiased prediction: A computational mathematics approach for high dimensional massive datasets
- Title(参考訳): 空間的最適線形非バイアス予測:高次元大規模データセットに対する計算数学的アプローチ
- Authors: Julio E. Castrillon-Candas,
- Abstract要約: 観測値や次元数とよく一致するマルチレベル計算法を開発した。
多レベル予測は、Best Linear Unbiased Predictor (BLUP) と Generalized Least Squares (GLS) モデルを正確に解く。
その結果,BLUP問題を解くために最大42,050倍の高速化が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of massive data sets much of the computational science and engineering community has moved toward data-intensive approaches in regression and classification. However, these present significant challenges due to increasing size, complexity and dimensionality of the problems. In particular, covariance matrices in many cases are numerically unstable and linear algebra shows that often such matrices cannot be inverted accurately on a finite precision computer. A common ad hoc approach to stabilizing a matrix is application of a so-called nugget. However, this can change the model and introduce error to the original solution. It is well known from numerical analysis that ill-conditioned matrices cannot be accurately inverted. In this paper we develop a multilevel computational method that scales well with the number of observations and dimensions. A multilevel basis is constructed adapted to a kD-tree partitioning of the observations. Numerically unstable covariance matrices with large condition numbers can be transformed into well conditioned multilevel ones without compromising accuracy. Moreover, it is shown that the multilevel prediction exactly solves the Best Linear Unbiased Predictor (BLUP) and Generalized Least Squares (GLS) model, but is numerically stable. The multilevel method is tested on numerically unstable problems of up to 25 dimensions. Numerical results show speedups of up to 42,050 times for solving the BLUP problem, but with the same accuracy as the traditional iterative approach. For very ill-conditioned cases the speedup is infinite. In addition, decay estimates of the multilevel covariance matrices are derived based on high dimensional interpolation techniques from the field of numerical analysis. This work lies at the intersection of statistics, uncertainty quantification, high performance computing and computational applied mathematics.
- Abstract(参考訳): 膨大なデータセットの出現により、計算科学とエンジニアリングのコミュニティの多くは、回帰と分類におけるデータ集約的なアプローチに向かっている。
しかし、これらの課題は、問題の規模、複雑さ、次元性の増加によるものである。
特に、多くの場合、共分散行列は数値的に不安定であり、線形代数はそのような行列を有限精度のコンピュータ上で正確に逆転することはできないことを示す。
行列の安定化に対する一般的なアドホックなアプローチは、いわゆるナゲットの応用である。
しかし、これはモデルを変更し、元のソリューションにエラーをもたらす可能性がある。
不条件行列を正確に逆転することはできないことは、数値解析からよく知られている。
本稿では,観測値や次元数とよく一致したマルチレベル計算法を提案する。
マルチレベル基底は、観測のkD木分割に適合する。
条件数が大きい数値的に不安定な共分散行列は、精度を損なうことなく、良好な条件付きマルチレベル行列に変換することができる。
さらに, 最適線形不偏予測 (BLUP) モデルと一般化最小正方形 (GLS) モデルを正確に解くが, 数値的に安定であることを示す。
最大25次元の数値的不安定な問題に対して, マルチレベル法を検証した。
BLUP問題を解くために最大42,050倍の高速化が得られたが、従来の反復法と同じ精度である。
非常に不条件の場合、スピードアップは無限である。
さらに,多値共分散行列の減衰推定は数値解析の分野から高次元補間法に基づいて導出される。
この研究は統計学、不確実量化、高性能計算、計算応用数学の交差点にある。
関連論文リスト
- Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - EGGS: Eigen-Gap Guided Search Making Subspace Clustering Easy [20.547648917833698]
サブスペースクラスタリングのための固有ギャップ誘導探索法を提案する。
理論的、数値的には、より大きい相対固有ギャップを持つラプラシア行列は、しばしばより高いクラスタリング精度と安定性をもたらすことを示す。
本手法は実アプリケーションにおいて高い柔軟性と利便性を有し,計算コストも低い。
論文 参考訳(メタデータ) (2021-07-23T08:53:36Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Linear-Sample Learning of Low-Rank Distributions [56.59844655107251]
ktimes k$, rank-r$, matrices to normalized $L_1$ distance requires $Omega(frackrepsilon2)$ sample。
我々は、$cal O(frackrepsilon2log2fracepsilon)$ sample, a number linear in the high dimension, and almost linear in the matrices, usually low, rank proofs.というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-30T19:10:32Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。