論文の概要: Approximate Cross-Validation for Structured Models
- arxiv url: http://arxiv.org/abs/2006.12669v2
- Date: Tue, 1 Dec 2020 17:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:24:14.606539
- Title: Approximate Cross-Validation for Structured Models
- Title(参考訳): 構造モデルに対する近似クロスバリデーション
- Authors: Soumya Ghosh and William T. Stephenson and Tin D. Nguyen and Sameer K.
Deshpande and Tamara Broderick
- Abstract要約: 金標準評価技術は構造化クロスバリデーション(CV)である
しかし、すでに拡張された学習アルゴリズムを何度も再実行する必要があるため、ここでのCVは違法に遅くなる可能性がある。
従来の研究では、近似クロスバリデーション(ACV)法が高速かつ確実な代替手段であることが示された。
- 参考スコア(独自算出の注目度): 20.79997929155929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many modern data analyses benefit from explicitly modeling dependence
structure in data -- such as measurements across time or space, ordered words
in a sentence, or genes in a genome. A gold standard evaluation technique is
structured cross-validation (CV), which leaves out some data subset (such as
data within a time interval or data in a geographic region) in each fold. But
CV here can be prohibitively slow due to the need to re-run already-expensive
learning algorithms many times. Previous work has shown approximate
cross-validation (ACV) methods provide a fast and provably accurate alternative
in the setting of empirical risk minimization. But this existing ACV work is
restricted to simpler models by the assumptions that (i) data across CV folds
are independent and (ii) an exact initial model fit is available. In structured
data analyses, both these assumptions are often untrue. In the present work, we
address (i) by extending ACV to CV schemes with dependence structure between
the folds. To address (ii), we verify -- both theoretically and empirically --
that ACV quality deteriorates smoothly with noise in the initial fit. We
demonstrate the accuracy and computational benefits of our proposed methods on
a diverse set of real-world applications.
- Abstract(参考訳): 現代のデータ分析の多くは、時間や空間をまたいだ測定、文中の順序付けられた単語、ゲノム中の遺伝子など、データの依存構造を明示的にモデル化することの恩恵を受ける。
金の標準評価手法は構造化クロスバリデーション(CV)であり、各折り畳みにいくつかのデータサブセット(時間間隔内のデータや地理的領域内のデータなど)を残している。
しかし、cvは、すでに拡張された学習アルゴリズムを何度も再実行する必要があるため、禁止的に遅い可能性がある。
従来の研究は、経験的リスク最小化の設定において、近似的クロスバリデーション(ACV)法が高速かつ確実な代替手段を提供することを示した。
しかし、既存のACVの作業は、仮定によってより単純なモデルに限定されている。
(i)CV折りたたみデータとは独立かつ独立である
(ii) 正確な初期モデルが利用可能である。
構造化データ分析では、どちらの仮定もしばしば真実ではない。
現在の作品では
(i) ACV から CV への拡張により, 折り畳み構造が変化した。
宛て
(II) ACVの品質が初期適合のノイズとともに滑らかに低下することを理論的および経験的に検証した。
本稿では,実世界の多様なアプリケーションに対して提案手法の精度と計算効率を実証する。
関連論文リスト
- Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Iterative Approximate Cross-Validation [13.084578404699174]
クロスバリデーション(CV)は、予測モデルを評価し、選択するための最も一般的なツールの1つである。
本稿では,経験的リスク最小化(ERM)問題を反復的1次アルゴリズムを用いて解く際に,CVを効率的に近似する新しいパラダイムを提案する。
我々の新しい手法は、CV近似の既存の保証を拡張し、収束を含むアルゴリズムの全軌道に沿って保持する。
論文 参考訳(メタデータ) (2023-03-05T17:56:08Z) - Confidence intervals for the Cox model test error from cross-validation [91.3755431537592]
クロスバリデーション(CV)は、モデルの試験誤差を推定する統計学習において最も広く使われている手法の1つである。
CVからの推定値を用いたテストエラーの標準信頼区間は、名目レベル以下である可能性がある。
この問題の1つの方法は、ネストされたCVを使って予測誤差の平均2乗誤差を推定することである。
論文 参考訳(メタデータ) (2022-01-26T06:40:43Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Leave Zero Out: Towards a No-Cross-Validation Approach for Model
Selection [21.06860861548758]
cross validation (cv) はモデル選択の主要な作業馬である。
CVは、限られたデータの一部が検証のために保たなければならないため、保守的にバイアスのある推定に苦しむ。
CVは、繰り返しの訓練手順のために、例えば、耐え難い時間を要する傾向があります。
論文 参考訳(メタデータ) (2020-12-24T16:11:53Z) - Approximate Cross-Validation with Low-Rank Data in High Dimensions [35.74302895575951]
クロスバリデーションはモデルアセスメントの重要なツールです。
ACV法は、空間構造がデータに存在しない限り、高次元での速度と精度の両方を失うことができる。
我々は,ALRデータの存在下で高速かつ高精度なACVの新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-24T16:34:05Z) - Efficient implementations of echo state network cross-validation [0.0]
CV(Cross-Validation)は、時系列モデリングではまだ一般的ではない。
本稿では,具体的な時間間隔を予測するための時系列のCVについて論じる。
本稿では,効率的な実装アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-19T13:49:43Z) - Estimating the Prediction Performance of Spatial Models via Spatial
k-Fold Cross Validation [1.7205106391379026]
機械学習では、モデルの性能を評価するときにデータが独立していると仮定することが多い。
空間自己相関(spatial autocorrelation, SAC)は、標準クロスバリデーション(CV)法により、楽観的に偏りのある予測性能推定を生成する。
本研究では,SACによる楽観的バイアスを伴わないモデル予測性能を評価するため,空間k-fold Cross Validation (SKCV) と呼ばれるCV法の改良版を提案する。
論文 参考訳(メタデータ) (2020-05-28T19:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。