論文の概要: How much data do you need? Part 2: Predicting DL class specific training
dataset sizes
- arxiv url: http://arxiv.org/abs/2403.06311v1
- Date: Sun, 10 Mar 2024 21:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 21:02:53.686985
- Title: How much data do you need? Part 2: Predicting DL class specific training
dataset sizes
- Title(参考訳): どのくらいのデータが必要ですか?
パート2:DLクラス固有のトレーニングデータセットサイズ予測
- Authors: Thomas M\"uhlenst\"adt, Jelena Frtunikj
- Abstract要約: 本稿では,機械学習の分類モデルの性能を予測することを目的とする。
クラスごとのトレーニング例の数だけでなく、トレーニング例の総数も考慮します。
実験の空間充填設計の特別な事例から動機づけたアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.38073142980732994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper targets the question of predicting machine learning classification
model performance, when taking into account the number of training examples per
class and not just the overall number of training examples. This leads to the a
combinatorial question, which combinations of number of training examples per
class should be considered, given a fixed overall training dataset size. In
order to solve this question, an algorithm is suggested which is motivated from
special cases of space filling design of experiments. The resulting data are
modeled using models like powerlaw curves and similar models, extended like
generalized linear models i.e. by replacing the overall training dataset size
by a parametrized linear combination of the number of training examples per
label class. The proposed algorithm has been applied on the CIFAR10 and the
EMNIST datasets.
- Abstract(参考訳): 本稿では、クラスごとのトレーニングサンプル数を考慮し、トレーニングサンプルの全体数だけでなく、機械学習の分類モデルのパフォーマンスを予測する問題を対象としている。
これは、トレーニングデータセットのサイズが固定された場合、クラス毎のトレーニング例の数の組み合わせを考慮すべきである、という組み合わせの問題に繋がる。
この問題を解決するために,実験の空間充填設計の特別な場合を動機とするアルゴリズムを提案する。
結果として得られたデータは、一般的な線形モデルのように拡張されたpowerlaw曲線などのモデル、すなわちラベルクラス毎のトレーニングサンプル数をパラメータ化された線形結合に置き換えることでモデル化される。
提案アルゴリズムはCIFAR10とEMNISTデータセットに適用されている。
関連論文リスト
- A Lightweight Measure of Classification Difficulty from Application Dataset Characteristics [4.220363193932374]
本稿では,データセットのクラス数とクラス内およびクラス間類似度指標から算出した効率的な分類難度尺度を提案する。
この尺度は,反復的なトレーニングやテストよりも,小さなデータセットに対して6~29倍高速に計算効率の高いモデルを選択する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-04-09T03:27:09Z) - 'One size doesn't fit all': Learning how many Examples to use for
In-Context Learning for Improved Text Classification [18.167541508658417]
In-context Learning (ICL) は、少数のラベル付きデータインスタンスをプロンプトの例として使用する。
本稿では,データに代表されるサンプル数を動的に適応させる手法を提案する。
実験の結果,AICL法はいくつかの標準データセットにおけるテキスト分類タスクの改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-03-11T03:28:13Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Measuring the Effect of Training Data on Deep Learning Predictions via
Randomized Experiments [5.625056584412003]
本研究では,ディープラーニングモデルに対するトレーニングデータポイントの寄与度を推定するアルゴリズムを開発した。
提案アルゴリズムは,トレーニングデータのサブセットにデータポイントを追加することにより,期待値(平均値)の限界効果を測定する量であるAMEを推定する。
論文 参考訳(メタデータ) (2022-06-20T21:27:18Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Learning a Universal Template for Few-shot Dataset Generalization [25.132729497191047]
少数のデータセットの一般化はよく研究された少数のショット分類問題の挑戦的な変形です。
データセットに特化したモデルを幅広く定義できるユニバーサルテンプレートを構築するために,多様なトレーニングセットを活用することを提案する。
提案手法は,従来の手法に比べてパラメータ効率が高く,スケーラブルで適応性が高く,難易度の高いメタデータセットベンチマークで最先端を実現する。
論文 参考訳(メタデータ) (2021-05-14T18:46:06Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z) - Data augmentation and feature selection for automatic model
recommendation in computational physics [0.0]
本稿では,トレーニングデータの欠如,高次元化,物理データへの共通データ拡張手法の適用性に関する2つのアルゴリズムを紹介する。
6つの多層パーセプトロンとリッジロジスティック回帰からなる積み重ねアンサンブルを組み合わせると、非線形構造力学の分類問題において90%の精度が得られる。
論文 参考訳(メタデータ) (2021-01-12T15:09:11Z) - Continual Learning using a Bayesian Nonparametric Dictionary of Weight
Factors [75.58555462743585]
訓練されたニューラルネットワークは、シーケンシャルなタスク設定で破滅的な忘れを経験する傾向がある。
Indian Buffet Process (IBP) に基づく原則的非パラメトリック手法を提案する。
連続学習ベンチマークにおける本手法の有効性を実証し、トレーニングを通して重み要因の配分と再利用方法を分析する。
論文 参考訳(メタデータ) (2020-04-21T15:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。