Fugu-MT 論文翻訳(概要): How much data do you need? Part 2: Predicting DL class specific training dataset sizes

論文の概要: How much data do you need? Part 2: Predicting DL class specific training dataset sizes

arxiv url: http://arxiv.org/abs/2403.06311v1
Date: Sun, 10 Mar 2024 21:08:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 21:02:53.686985
Title: How much data do you need? Part 2: Predicting DL class specific training dataset sizes
Title（参考訳）: どのくらいのデータが必要ですか? パート2:DLクラス固有のトレーニングデータセットサイズ予測
Authors: Thomas M\"uhlenst\"adt, Jelena Frtunikj
Abstract要約: 本稿では,機械学習の分類モデルの性能を予測することを目的とする。クラスごとのトレーニング例の数だけでなく、トレーニング例の総数も考慮します。実験の空間充填設計の特別な事例から動機づけたアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.38073142980732994
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper targets the question of predicting machine learning classification model performance, when taking into account the number of training examples per class and not just the overall number of training examples. This leads to the a combinatorial question, which combinations of number of training examples per class should be considered, given a fixed overall training dataset size. In order to solve this question, an algorithm is suggested which is motivated from special cases of space filling design of experiments. The resulting data are modeled using models like powerlaw curves and similar models, extended like generalized linear models i.e. by replacing the overall training dataset size by a parametrized linear combination of the number of training examples per label class. The proposed algorithm has been applied on the CIFAR10 and the EMNIST datasets.
Abstract（参考訳）: 本稿では、クラスごとのトレーニングサンプル数を考慮し、トレーニングサンプルの全体数だけでなく、機械学習の分類モデルのパフォーマンスを予測する問題を対象としている。これは、トレーニングデータセットのサイズが固定された場合、クラス毎のトレーニング例の数の組み合わせを考慮すべきである、という組み合わせの問題に繋がる。この問題を解決するために,実験の空間充填設計の特別な場合を動機とするアルゴリズムを提案する。結果として得られたデータは、一般的な線形モデルのように拡張されたpowerlaw曲線などのモデル、すなわちラベルクラス毎のトレーニングサンプル数をパラメータ化された線形結合に置き換えることでモデル化される。提案アルゴリズムはCIFAR10とEMNISTデータセットに適用されている。

関連論文リスト

Learning to Weight Parameters for Data Attribution [63.753710512888965]
生成モデルにおけるデータ帰属について検討し、どのトレーニング例が与えられた出力に最も影響するかを特定することを目的とした。本稿では,ラベル付きデータを必要とせず,属性に適したパラメータ重み付けを学習することで,これをモデル化する手法を提案する。
論文参考訳（メタデータ） (2025-06-06T00:32:04Z)
The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T23:02:26Z)
Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文参考訳（メタデータ） (2024-10-14T15:48:09Z)
Task-Adaptive Pretrained Language Models via Clustered-Importance Sampling [21.762562172089236]
代わりに、大規模なジェネラリストのトレーニングセットからスペシャリストモデルを構築します。我々は、限られたドメイン固有データからのガイダンスにより、ジェネリストデータのトレーニング分布を調整する。スケーラブルで、事前トレーニングと継続事前トレーニングに適しており、マルチタスク設定でうまく機能する。
論文参考訳（メタデータ） (2024-09-30T20:49:54Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
A Lightweight Measure of Classification Difficulty from Application Dataset Characteristics [4.220363193932374]
効率的なコサイン類似度に基づく分類困難度尺度Sを提案する。データセットのクラス数とクラス内およびクラス間の類似度メトリクスから計算される。この手法を実践者が、繰り返しトレーニングやテストによって、6倍から29倍の速度で効率の良いモデルを選択するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2024-04-09T03:27:09Z)
TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文参考訳（メタデータ） (2023-03-24T17:56:22Z)
Measuring the Effect of Training Data on Deep Learning Predictions via Randomized Experiments [5.625056584412003]
本研究では,ディープラーニングモデルに対するトレーニングデータポイントの寄与度を推定するアルゴリズムを開発した。提案アルゴリズムは,トレーニングデータのサブセットにデータポイントを追加することにより,期待値(平均値)の限界効果を測定する量であるAMEを推定する。
論文参考訳（メタデータ） (2022-06-20T21:27:18Z)
CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文参考訳（メタデータ） (2022-02-11T13:49:51Z)
Learning to be a Statistician: Learned Estimator for Number of Distinct Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文参考訳（メタデータ） (2022-02-06T15:42:04Z)
Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文参考訳（メタデータ） (2022-02-01T18:15:24Z)
Learning a Universal Template for Few-shot Dataset Generalization [25.132729497191047]
少数のデータセットの一般化はよく研究された少数のショット分類問題の挑戦的な変形です。データセットに特化したモデルを幅広く定義できるユニバーサルテンプレートを構築するために,多様なトレーニングセットを活用することを提案する。提案手法は,従来の手法に比べてパラメータ効率が高く,スケーラブルで適応性が高く,難易度の高いメタデータセットベンチマークで最先端を実現する。
論文参考訳（メタデータ） (2021-05-14T18:46:06Z)
Data augmentation and feature selection for automatic model recommendation in computational physics [0.0]
本稿では,トレーニングデータの欠如,高次元化,物理データへの共通データ拡張手法の適用性に関する2つのアルゴリズムを紹介する。 6つの多層パーセプトロンとリッジロジスティック回帰からなる積み重ねアンサンブルを組み合わせると、非線形構造力学の分類問題において90%の精度が得られる。
論文参考訳（メタデータ） (2021-01-12T15:09:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。