論文の概要: How much data do you need? Part 2: Predicting DL class specific training
dataset sizes
- arxiv url: http://arxiv.org/abs/2403.06311v1
- Date: Sun, 10 Mar 2024 21:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 21:02:53.686985
- Title: How much data do you need? Part 2: Predicting DL class specific training
dataset sizes
- Title(参考訳): どのくらいのデータが必要ですか?
パート2:DLクラス固有のトレーニングデータセットサイズ予測
- Authors: Thomas M\"uhlenst\"adt, Jelena Frtunikj
- Abstract要約: 本稿では,機械学習の分類モデルの性能を予測することを目的とする。
クラスごとのトレーニング例の数だけでなく、トレーニング例の総数も考慮します。
実験の空間充填設計の特別な事例から動機づけたアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.38073142980732994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper targets the question of predicting machine learning classification
model performance, when taking into account the number of training examples per
class and not just the overall number of training examples. This leads to the a
combinatorial question, which combinations of number of training examples per
class should be considered, given a fixed overall training dataset size. In
order to solve this question, an algorithm is suggested which is motivated from
special cases of space filling design of experiments. The resulting data are
modeled using models like powerlaw curves and similar models, extended like
generalized linear models i.e. by replacing the overall training dataset size
by a parametrized linear combination of the number of training examples per
label class. The proposed algorithm has been applied on the CIFAR10 and the
EMNIST datasets.
- Abstract(参考訳): 本稿では、クラスごとのトレーニングサンプル数を考慮し、トレーニングサンプルの全体数だけでなく、機械学習の分類モデルのパフォーマンスを予測する問題を対象としている。
これは、トレーニングデータセットのサイズが固定された場合、クラス毎のトレーニング例の数の組み合わせを考慮すべきである、という組み合わせの問題に繋がる。
この問題を解決するために,実験の空間充填設計の特別な場合を動機とするアルゴリズムを提案する。
結果として得られたデータは、一般的な線形モデルのように拡張されたpowerlaw曲線などのモデル、すなわちラベルクラス毎のトレーニングサンプル数をパラメータ化された線形結合に置き換えることでモデル化される。
提案アルゴリズムはCIFAR10とEMNISTデータセットに適用されている。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。
我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。
スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
論文 参考訳(メタデータ) (2024-09-30T20:49:54Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - A Lightweight Measure of Classification Difficulty from Application Dataset Characteristics [4.220363193932374]
効率的なコサイン類似度に基づく分類困難度尺度Sを提案する。
データセットのクラス数とクラス内およびクラス間の類似度メトリクスから計算される。
この手法を実践者が、繰り返しトレーニングやテストによって、6倍から29倍の速度で効率の良いモデルを選択するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-04-09T03:27:09Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Measuring the Effect of Training Data on Deep Learning Predictions via
Randomized Experiments [5.625056584412003]
本研究では,ディープラーニングモデルに対するトレーニングデータポイントの寄与度を推定するアルゴリズムを開発した。
提案アルゴリズムは,トレーニングデータのサブセットにデータポイントを追加することにより,期待値(平均値)の限界効果を測定する量であるAMEを推定する。
論文 参考訳(メタデータ) (2022-06-20T21:27:18Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Learning a Universal Template for Few-shot Dataset Generalization [25.132729497191047]
少数のデータセットの一般化はよく研究された少数のショット分類問題の挑戦的な変形です。
データセットに特化したモデルを幅広く定義できるユニバーサルテンプレートを構築するために,多様なトレーニングセットを活用することを提案する。
提案手法は,従来の手法に比べてパラメータ効率が高く,スケーラブルで適応性が高く,難易度の高いメタデータセットベンチマークで最先端を実現する。
論文 参考訳(メタデータ) (2021-05-14T18:46:06Z) - Data augmentation and feature selection for automatic model
recommendation in computational physics [0.0]
本稿では,トレーニングデータの欠如,高次元化,物理データへの共通データ拡張手法の適用性に関する2つのアルゴリズムを紹介する。
6つの多層パーセプトロンとリッジロジスティック回帰からなる積み重ねアンサンブルを組み合わせると、非線形構造力学の分類問題において90%の精度が得られる。
論文 参考訳(メタデータ) (2021-01-12T15:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。