論文の概要: Fast and Informative Model Selection using Learning Curve
Cross-Validation
- arxiv url: http://arxiv.org/abs/2111.13914v1
- Date: Sat, 27 Nov 2021 14:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 10:01:43.031330
- Title: Fast and Informative Model Selection using Learning Curve
Cross-Validation
- Title(参考訳): 学習曲線クロスバリデーションを用いた素早い情報モデル選択
- Authors: Felix Mohr, Jan N. van Rijn
- Abstract要約: クロスバリデーションメソッドは、大規模なデータセットでは不要に遅くなる可能性がある。
学習曲線(LCCV)に基づく新しい検証手法を提案する。
LCCVは反復的にトレーニングに使用されるインスタンスの数を増やします。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Common cross-validation (CV) methods like k-fold cross-validation or
Monte-Carlo cross-validation estimate the predictive performance of a learner
by repeatedly training it on a large portion of the given data and testing on
the remaining data. These techniques have two major drawbacks. First, they can
be unnecessarily slow on large datasets. Second, beyond an estimation of the
final performance, they give almost no insights into the learning process of
the validated algorithm. In this paper, we present a new approach for
validation based on learning curves (LCCV). Instead of creating train-test
splits with a large portion of training data, LCCV iteratively increases the
number of instances used for training. In the context of model selection, it
discards models that are very unlikely to become competitive. We run a large
scale experiment on the 67 datasets from the AutoML benchmark and empirically
show that in over 90% of the cases using LCCV leads to similar performance (at
most 1.5% difference) as using 5/10-fold CV. However, it yields substantial
runtime reductions of over 20% on average. Additionally, it provides important
insights, which for example allow assessing the benefits of acquiring more
data. These results are orthogonal to other advances in the field of AutoML.
- Abstract(参考訳): k-foldクロスバリデーションやモンテカルロクロスバリデーションのような共通クロスバリデーション(cv)法は、与えられたデータの大部分で繰り返しトレーニングし、残りのデータでテストすることで学習者の予測性能を推定する。
これらの技法には2つの大きな欠点がある。
まず、大きなデータセットでは不必要に遅くなります。
第二に、最終的なパフォーマンスを見積もる以外に、検証されたアルゴリズムの学習プロセスに関する洞察はほとんど与えられません。
本稿では,学習曲線(LCCV)に基づく検証手法を提案する。
LCCVは、トレーニングデータの大部分で列車-テスト分割を作成する代わりに、反復的にトレーニングに使用されるインスタンスの数を増やす。
モデル選択の文脈では、競合になりそうにないモデルを破棄します。
AutoMLベンチマークから67のデータセットに対して大規模な実験を行い、LCCVを使用するケースの90%以上で、5/10倍のCVを使用する場合と同様のパフォーマンス(最大1.5%の差)が得られることを実証した。
しかし、これは平均で20%以上の実行時削減をもたらす。
さらに、例えばより多くのデータを取得することのメリットを評価するために、重要な洞察を提供する。
これらの結果はAutoMLの分野での他の進歩と直交している。
関連論文リスト
- Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Efficient Classification with Counterfactual Reasoning and Active
Learning [4.708737212700907]
CCRALと呼ばれる手法は、因果推論と、元のトレーニングサンプルの反事実サンプルの学習と、不確実性の領域に基づいて有用な反事実サンプルを選択するアクティブラーニングを組み合わせたものである。
実験の結果, CCRALは精度とAUCの点で, ベースラインよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-25T12:03:40Z) - Learn by Challenging Yourself: Contrastive Visual Representation
Learning with Hard Sample Generation [16.3860181959878]
コントラシブラーニング(CL)トレーニングのデータ効率を改善するための2つのフレームワークを提案する。
最初のアプローチは、メインモデルのためのハードサンプルを生成する。
ジェネレータは、ハードサンプルを動的にカスタマイズするために、メインモデルと共同で学習される。
共同学習では、正の対の硬さは、その類似性を減少させることで徐々に増大する。
論文 参考訳(メタデータ) (2022-02-14T02:41:43Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - Leave Zero Out: Towards a No-Cross-Validation Approach for Model
Selection [21.06860861548758]
cross validation (cv) はモデル選択の主要な作業馬である。
CVは、限られたデータの一部が検証のために保たなければならないため、保守的にバイアスのある推定に苦しむ。
CVは、繰り返しの訓練手順のために、例えば、耐え難い時間を要する傾向があります。
論文 参考訳(メタデータ) (2020-12-24T16:11:53Z) - Approximate Cross-Validation for Structured Models [20.79997929155929]
金標準評価技術は構造化クロスバリデーション(CV)である
しかし、すでに拡張された学習アルゴリズムを何度も再実行する必要があるため、ここでのCVは違法に遅くなる可能性がある。
従来の研究では、近似クロスバリデーション(ACV)法が高速かつ確実な代替手段であることが示された。
論文 参考訳(メタデータ) (2020-06-23T00:06:03Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。