論文の概要: Estimation of Predictive Performance in High-Dimensional Data Settings
using Learning Curves
- arxiv url: http://arxiv.org/abs/2206.03825v1
- Date: Wed, 8 Jun 2022 11:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 20:38:38.967494
- Title: Estimation of Predictive Performance in High-Dimensional Data Settings
using Learning Curves
- Title(参考訳): 学習曲線を用いた高次元データ設定における予測性能の推定
- Authors: Jeroen M. Goedhart, Thomas Klausch, Mark A. van de Wiel
- Abstract要約: Learn2Evaluateは、サンプルサイズの関数として試験性能を表す滑らかな単調曲線を組み込むことにより、学習曲線に基づいて評価する。
Learn2Evaluateの利点はシミュレーション研究とオミクスデータへの応用によって説明される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-dimensional prediction settings, it remains challenging to reliably
estimate the test performance. To address this challenge, a novel performance
estimation framework is presented. This framework, called Learn2Evaluate, is
based on learning curves by fitting a smooth monotone curve depicting test
performance as a function of the sample size. Learn2Evaluate has several
advantages compared to commonly applied performance estimation methodologies.
Firstly, a learning curve offers a graphical overview of a learner. This
overview assists in assessing the potential benefit of adding training samples
and it provides a more complete comparison between learners than performance
estimates at a fixed subsample size. Secondly, a learning curve facilitates in
estimating the performance at the total sample size rather than a subsample
size. Thirdly, Learn2Evaluate allows the computation of a theoretically
justified and useful lower confidence bound. Furthermore, this bound may be
tightened by performing a bias correction. The benefits of Learn2Evaluate are
illustrated by a simulation study and applications to omics data.
- Abstract(参考訳): 高次元の予測設定では、テスト性能を確実に見積もることは困難である。
この課題に対処するために,新しい性能推定フレームワークを提案する。
このフレームワークはLearner2Evaluateと呼ばれ、サンプルサイズの関数としてテスト性能を表す滑らかな単調曲線を組み込むことで学習曲線に基づいている。
Learn2Evaluateは一般的に適用される性能評価手法と比較していくつかの利点がある。
まず、学習曲線は学習者のグラフィカルな概要を提供する。
この概要は、トレーニングサンプルを追加することの潜在的なメリットを評価するのに役立ち、固定サブサンプルサイズでのパフォーマンス見積よりも学習者間の完全な比較を提供する。
第2に、学習曲線はサブサンプルサイズではなく、全サンプルサイズでの性能の推定を容易にする。
第三に、Learn2Evaluateは理論的に正当化され有用な低信頼境界の計算を可能にする。
さらに、バイアス補正を行うことで、この境界を締め付けることもできる。
Learn2Evaluateの利点はシミュレーション研究とオミクスデータへの応用によって説明される。
関連論文リスト
- One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - Learning Curves for Noisy Heterogeneous Feature-Subsampled Ridge
Ensembles [34.32021888691789]
雑音の多い最小二乗尾根アンサンブルにおける特徴バッグングの理論を開発する。
サブサンプリングは線形予測器の2Dピークをシフトすることを示した。
特徴サブサンプリングアンサンブルの性能を1つの線形予測器と比較する。
論文 参考訳(メタデータ) (2023-07-06T17:56:06Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Leveraging Angular Information Between Feature and Classifier for
Long-tailed Learning: A Prediction Reformulation Approach [90.77858044524544]
分類器の重みを再バランスすることなく、包含角度で認識確率を再構成する。
予測形式再構成の性能向上に着想を得て, この角度予測の異なる特性について検討する。
CIFAR10/100-LT と ImageNet-LT を事前学習することなく、ピアメソッド間で最高の性能を得ることができる。
論文 参考訳(メタデータ) (2022-12-03T07:52:48Z) - A Survey of Learning Curves with Bad Behavior: or How More Data Need Not
Lead to Better Performance [15.236871820889345]
学習者の一般化性能をトレーニングセットサイズと比較すると、いわゆる学習曲線が得られる。
学習曲線の概念を(理想的に)正確にし、上記の曲線の使用法を簡潔に議論する。
この調査の焦点の大部分は、より多くのデータが必ずしもより良い一般化性能をもたらすとは限らないことを示す学習曲線に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-25T12:36:52Z) - ProBoost: a Boosting Method for Probabilistic Classifiers [55.970609838687864]
ProBoostは確率的分類器のための新しいブースティングアルゴリズムである。
各トレーニングサンプルの不確実性を使用して、最も困難で不確実なものを決定する。
これは、最も不確実性が高いと判明したサンプルに徐々に焦点をあてる配列を生成する。
論文 参考訳(メタデータ) (2022-09-04T12:49:20Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - Learning Curves for Analysis of Deep Networks [23.968036672913392]
学習曲線はモデルパラメータを選択し、性能を外挿するのに使うことができる。
本研究では,学習曲線を頑健に推定し,パラメータを誤りとデータ信頼性に抽象化し,パラメータ化の有効性を評価する手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。