論文の概要: Leave Zero Out: Towards a No-Cross-Validation Approach for Model
Selection
- arxiv url: http://arxiv.org/abs/2012.13309v2
- Date: Mon, 28 Dec 2020 15:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:10:47.691340
- Title: Leave Zero Out: Towards a No-Cross-Validation Approach for Model
Selection
- Title(参考訳): ゼロアウト:モデル選択のための非クロスバリデーションアプローチ
- Authors: Weikai Li, Chuanxing Geng, and Songcan Chen
- Abstract要約: cross validation (cv) はモデル選択の主要な作業馬である。
CVは、限られたデータの一部が検証のために保たなければならないため、保守的にバイアスのある推定に苦しむ。
CVは、繰り返しの訓練手順のために、例えば、耐え難い時間を要する傾向があります。
- 参考スコア(独自算出の注目度): 21.06860861548758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the main workhorse for model selection, Cross Validation (CV) has achieved
an empirical success due to its simplicity and intuitiveness. However, despite
its ubiquitous role, CV often falls into the following notorious dilemmas. On
the one hand, for small data cases, CV suffers a conservatively biased
estimation, since some part of the limited data has to hold out for validation.
On the other hand, for large data cases, CV tends to be extremely cumbersome,
e.g., intolerant time-consuming, due to the repeated training procedures.
Naturally, a straightforward ambition for CV is to validate the models with far
less computational cost, while making full use of the entire given data-set for
training. Thus, instead of holding out the given data, a cheap and
theoretically guaranteed auxiliary/augmented validation is derived
strategically in this paper. Such an embarrassingly simple strategy only needs
to train models on the entire given data-set once, making the model-selection
considerably efficient. In addition, the proposed validation approach is
suitable for a wide range of learning settings due to the independence of both
augmentation and out-of-sample estimation on learning process. In the end, we
demonstrate the accuracy and computational benefits of our proposed method by
extensive evaluation on multiple data-sets, models and tasks.
- Abstract(参考訳): モデル選択の主要なワークホースとして、Cross Validation (CV)はその単純さと直感性のために実証的な成功を収めた。
しかし、そのユビキタスな役割にもかかわらず、CVはしばしば以下の悪名高いジレンマに陥る。
一方、小さなデータの場合、CVは、限られたデータの一部が検証のために保たなければならないため、保守的にバイアスのある推定に悩まされる。
一方、大規模データの場合、CVはトレーニング手順が繰り返されているため、不寛容な時間の浪費など、非常に煩雑な傾向にある。
CVの直接的な野望は、与えられたデータセット全体をトレーニングにフル活用しながら、はるかに少ない計算コストでモデルを検証することである。
そこで本稿では,所定のデータを保持する代わりに,安価で理論的に保証された補助的/補助的検証を戦略的に導出する。
このような恥ずかしい単純な戦略は、与えられたデータセット全体のモデルを一度だけ訓練する必要があり、モデル選択をかなり効率的にする。
さらに,本提案手法は,学習過程における拡張性およびアウト・オブ・サンプル推定の両方の独立性から,幅広い学習環境に適している。
最後に,複数のデータセット,モデル,タスクを広範囲に評価することにより,提案手法の精度と計算効率を実証する。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Iterative Approximate Cross-Validation [13.084578404699174]
クロスバリデーション(CV)は、予測モデルを評価し、選択するための最も一般的なツールの1つである。
本稿では,経験的リスク最小化(ERM)問題を反復的1次アルゴリズムを用いて解く際に,CVを効率的に近似する新しいパラダイムを提案する。
我々の新しい手法は、CV近似の既存の保証を拡張し、収束を含むアルゴリズムの全軌道に沿って保持する。
論文 参考訳(メタデータ) (2023-03-05T17:56:08Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Fast and Informative Model Selection using Learning Curve
Cross-Validation [2.28438857884398]
クロスバリデーションメソッドは、大規模なデータセットでは不要に遅くなる可能性がある。
学習曲線(LCCV)に基づく新しい検証手法を提案する。
LCCVは反復的にトレーニングに使用されるインスタンスの数を増やします。
論文 参考訳(メタデータ) (2021-11-27T14:48:52Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z) - Approximate Cross-Validation for Structured Models [20.79997929155929]
金標準評価技術は構造化クロスバリデーション(CV)である
しかし、すでに拡張された学習アルゴリズムを何度も再実行する必要があるため、ここでのCVは違法に遅くなる可能性がある。
従来の研究では、近似クロスバリデーション(ACV)法が高速かつ確実な代替手段であることが示された。
論文 参考訳(メタデータ) (2020-06-23T00:06:03Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Approximate Cross-validation: Guarantees for Model Assessment and
Selection [18.77512692975483]
クロスバリデーション(CV)は、予測モデルの評価と選択のための一般的なアプローチである。
経験的リスク最小化の最近の研究は、トレーニングセット全体からウォームスタートした1つのニュートンで高価なリフィットを近似している。
論文 参考訳(メタデータ) (2020-03-02T00:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。