論文の概要: Approximate Cross-Validation with Low-Rank Data in High Dimensions
- arxiv url: http://arxiv.org/abs/2008.10547v1
- Date: Mon, 24 Aug 2020 16:34:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 11:41:55.244562
- Title: Approximate Cross-Validation with Low-Rank Data in High Dimensions
- Title(参考訳): 低ランクデータを用いた高次元近似クロスバリデーション
- Authors: William T. Stephenson, Madeleine Udell, Tamara Broderick
- Abstract要約: クロスバリデーションはモデルアセスメントの重要なツールです。
ACV法は、空間構造がデータに存在しない限り、高次元での速度と精度の両方を失うことができる。
我々は,ALRデータの存在下で高速かつ高精度なACVの新しいアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 35.74302895575951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent advances in machine learning are driven by a challenging
trifecta: large data size $N$; high dimensions; and expensive algorithms. In
this setting, cross-validation (CV) serves as an important tool for model
assessment. Recent advances in approximate cross validation (ACV) provide
accurate approximations to CV with only a single model fit, avoiding
traditional CV's requirement for repeated runs of expensive algorithms.
Unfortunately, these ACV methods can lose both speed and accuracy in high
dimensions -- unless sparsity structure is present in the data. Fortunately,
there is an alternative type of simplifying structure that is present in most
data: approximate low rank (ALR). Guided by this observation, we develop a new
algorithm for ACV that is fast and accurate in the presence of ALR data. Our
first key insight is that the Hessian matrix -- whose inverse forms the
computational bottleneck of existing ACV methods -- is ALR. We show that,
despite our use of the \emph{inverse} Hessian, a low-rank approximation using
the largest (rather than the smallest) matrix eigenvalues enables fast,
reliable ACV. Our second key insight is that, in the presence of ALR data,
error in existing ACV methods roughly grows with the (approximate, low) rank
rather than with the (full, high) dimension. These insights allow us to prove
theoretical guarantees on the quality of our proposed algorithm -- along with
fast-to-compute upper bounds on its error. We demonstrate the speed and
accuracy of our method, as well as the usefulness of our bounds, on a range of
real and simulated data sets.
- Abstract(参考訳): 機械学習の最近の進歩の多くは、大きなデータサイズN$、高次元、高価なアルゴリズムという、難しいトリフェクタによって駆動されている。
この設定では、クロスバリデーション(CV)がモデルアセスメントの重要なツールとなる。
近年の近似的クロスバリデーション (ACV) の進歩により, CV の精度が向上し, 高価なアルゴリズムの繰り返し実行に対する従来の CV の要求が回避された。
Unfortunately, these ACV methods can lose both speed and accuracy in high dimensions -- unless sparsity structure is present in the data. Fortunately, there is an alternative type of simplifying structure that is present in most data: approximate low rank (ALR). Guided by this observation, we develop a new algorithm for ACV that is fast and accurate in the presence of ALR data. Our first key insight is that the Hessian matrix -- whose inverse forms the computational bottleneck of existing ACV methods -- is ALR.
我々は, ヘッセン方程式を用いたにもかかわらず, 最大(最小ではない)行列固有値を用いた低ランク近似が高速で信頼性の高いAVVを実現することを示す。
2つ目の重要な洞察は、ALRデータが存在する場合、既存のACV手法の誤差は、(完全で高い)次元ではなく、(近似的で低い)ランクで大きくなります。
これらの知見により、提案アルゴリズムの品質に関する理論的保証と、その誤差に対する高速で計算可能な上限を証明できる。
本研究では,実データとシミュレーションデータを用いて,提案手法の速度と精度,限界の有用性を実証する。
関連論文リスト
- Robust SVD Made Easy: A fast and reliable algorithm for large-scale data
analysis [0.0]
既存のロバストなSVDアルゴリズムは、ロバスト性のために速度を犠牲にしたり、わずかに外れ値が存在する場合に失敗することが多い。
本研究では,Spherally Normalized SVDというアルゴリズムを導入し,ロバストなSVD近似手法を提案する。
提案アルゴリズムは, 標準低ランクSVDアルゴリズムの2つの応用しか利用せず, 顕著な高速化を実現している。
論文 参考訳(メタデータ) (2024-02-15T07:08:11Z) - Blocked Cross-Validation: A Precise and Efficient Method for
Hyperparameter Tuning [0.0]
本稿では,ブロッククロスバリデーション(BCV)と呼ばれる新しい手法を提案し,CV分割と学習者のランダムな振る舞いに関して繰り返しをブロックする。
BCVは、実行回数が大幅に減少しても、RCVよりも正確な誤差推定を提供する。
論文 参考訳(メタデータ) (2023-06-11T04:58:47Z) - Efficient k-NN Search with Cross-Encoders using Adaptive Multi-Round CUR
Decomposition [77.4863142882136]
クロスエンコーダモデルは、直接k-nearest neighbor(k-NN)サーチには不当に高価である。
本稿では,現実的に重要なトップk近傍の近似誤差を適応的に,反復的に,効率的に最小化するADACURを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:01:17Z) - Iterative Approximate Cross-Validation [13.084578404699174]
クロスバリデーション(CV)は、予測モデルを評価し、選択するための最も一般的なツールの1つである。
本稿では,経験的リスク最小化(ERM)問題を反復的1次アルゴリズムを用いて解く際に,CVを効率的に近似する新しいパラダイムを提案する。
我々の新しい手法は、CV近似の既存の保証を拡張し、収束を含むアルゴリズムの全軌道に沿って保持する。
論文 参考訳(メタデータ) (2023-03-05T17:56:08Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Fast and Informative Model Selection using Learning Curve
Cross-Validation [2.28438857884398]
クロスバリデーションメソッドは、大規模なデータセットでは不要に遅くなる可能性がある。
学習曲線(LCCV)に基づく新しい検証手法を提案する。
LCCVは反復的にトレーニングに使用されるインスタンスの数を増やします。
論文 参考訳(メタデータ) (2021-11-27T14:48:52Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - VSAC: Efficient and Accurate Estimator for H and F [68.65610177368617]
VSACはRANSAC型頑健な推定器であり、多くの新奇性がある。
従来のすべてのプロセッサよりも大幅に高速で、CPU上では平均1-2msで動作する。
現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。
論文 参考訳(メタデータ) (2021-06-18T17:04:57Z) - Approximate Cross-Validation for Structured Models [20.79997929155929]
金標準評価技術は構造化クロスバリデーション(CV)である
しかし、すでに拡張された学習アルゴリズムを何度も再実行する必要があるため、ここでのCVは違法に遅くなる可能性がある。
従来の研究では、近似クロスバリデーション(ACV)法が高速かつ確実な代替手段であることが示された。
論文 参考訳(メタデータ) (2020-06-23T00:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。