論文の概要: Recommending Training Set Sizes for Classification
- arxiv url: http://arxiv.org/abs/2102.09382v1
- Date: Tue, 16 Feb 2021 20:00:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:16:39.223989
- Title: Recommending Training Set Sizes for Classification
- Title(参考訳): 分類のためのトレーニングセットの推薦
- Authors: Phillip Koshute, Jared Zook, Ian McCulloh
- Abstract要約: 20個のデータセットの包括的研究に基づいて、任意の分類データセットのトレーニングセットサイズを推奨する。
各トレーニングセットサイズに対する精度信頼区間を構築し,その下限を逆パワー低学習曲線に適合させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Based on a comprehensive study of 20 established data sets, we recommend
training set sizes for any classification data set. We obtain our
recommendations by systematically withholding training data and developing
models through five different classification methods for each resulting
training set. Based on these results, we construct accuracy confidence
intervals for each training set size and fit the lower bounds to inverse power
low learning curves. We also estimate a sufficient training set size (STSS) for
each data set based on established convergence criteria. We compare STSS to the
data sets' characteristics; based on identified trends, we recommend training
set sizes between 3000 and 30000 data points, according to a data set's number
of classes and number of features. Because obtaining and preparing training
data has non-negligible costs that are proportional to data set size, these
results afford the potential opportunity for substantial savings for predictive
modeling efforts.
- Abstract(参考訳): 20個のデータセットの包括的研究に基づいて、任意の分類データセットのトレーニングセットサイズを推奨する。
トレーニングデータを体系的に保持し、各トレーニングセットごとに5つの異なる分類方法によってモデルを開発することで推奨を得ます。
これらの結果に基づき,各トレーニングセットサイズに対する精度信頼区間を構築し,その下限を逆パワー低学習曲線に適合させる。
また、確立された収束基準に基づいて、各データセットに対して十分なトレーニングセットサイズ(STSS)を推定する。
STSSとデータセットの特性を比較し、特定された傾向に基づいて、データセットのクラス数と機能数に応じて、3000から30000のデータポイント間のトレーニングセットサイズを推奨します。
トレーニングデータの取得と準備にはデータセットのサイズに比例する不要なコストが伴うため、これらの結果は予測モデリングの労力を大幅に節約する可能性がある。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Exploring Federated Deep Learning for Standardising Naming Conventions
in Radiotherapy Data [0.18749305679160366]
放射線治療(RT)データにおける構造容積名の標準化は、データマイニングと分析を可能にするために必要である。
RT患者記録が複数のデータセンターに分散していると考える研究はない。
本稿では,現実の環境をエミュレートして標準化された命名法を提案する。
RTデータをフェデレーション設定で標準化するために,マルチモーダル深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:52:28Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z) - Class Density and Dataset Quality in High-Dimensional, Unstructured Data [0.0]
我々は,高次元非構造データセットにおける各クラス内のサンプルの集合類似度を測定するために,クラス密度の定義を提供する。
次に、クラス密度を計算し、各手法が生成する値間の相関を解析するためのいくつかの候補手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T13:41:14Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Harnessing Unlabeled Data to Improve Generalization of Biometric Gender
and Age Classifiers [0.7874708385247353]
ディープラーニングモデルは、モデルトレーニングと最適パラメータ推定のために、大量のラベル付きデータを必要とする。
プライバシやセキュリティ上の懸念から、医療分野を含む特定のアプリケーションに対して大量のラベル付きデータを収集することはできない。
本稿では,ラベル付きデータに制限を加えた自己アンサンブルに基づくディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-10-09T01:06:01Z) - On Deep Learning with Label Differential Privacy [54.45348348861426]
ラベルは機密性があり、保護されるべきであるとするマルチクラス分類について検討する。
本稿では,ラベル差分プライバシを用いたディープニューラルネットワークのトレーニングアルゴリズムを提案し,いくつかのデータセットで評価を行う。
論文 参考訳(メタデータ) (2021-02-11T15:09:06Z) - Improving filling level classification with adversarial training [90.01594595780928]
単一画像からカップや飲料グラスのコンテントのレベルを分類する問題について検討する。
汎用ソースデータセットで逆トレーニングを使用し、タスク固有のデータセットでトレーニングを洗練します。
ソース領域における逆学習による伝達学習は,テストセットの分類精度を常に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-08T08:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。