論文の概要: How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks
- arxiv url: http://arxiv.org/abs/2207.01725v1
- Date: Mon, 4 Jul 2022 21:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 05:45:32.736515
- Title: How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks
- Title(参考訳): どのくらいのデータが必要なのか?
ダウンストリームタスクの要件推定
- Authors: Rafid Mahmood, James Lucas, David Acuna, Daiqing Li, Jonah Philion,
Jose M. Alvarez, Zhiding Yu, Sanja Fidler, Marc T. Law
- Abstract要約: 小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
- 参考スコア(独自算出の注目度): 99.44608160188905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a small training data set and a learning algorithm, how much more data
is necessary to reach a target validation or test performance? This question is
of critical importance in applications such as autonomous driving or medical
imaging where collecting data is expensive and time-consuming. Overestimating
or underestimating data requirements incurs substantial costs that could be
avoided with an adequate budget. Prior work on neural scaling laws suggest that
the power-law function can fit the validation performance curve and extrapolate
it to larger data set sizes. We find that this does not immediately translate
to the more difficult downstream task of estimating the required data set size
to meet a target performance. In this work, we consider a broad class of
computer vision tasks and systematically investigate a family of functions that
generalize the power-law function to allow for better estimation of data
requirements. Finally, we show that incorporating a tuned correction factor and
collecting over multiple rounds significantly improves the performance of the
data estimators. Using our guidelines, practitioners can accurately estimate
data requirements of machine learning systems to gain savings in both
development time and data acquisition costs.
- Abstract(参考訳): 小さなトレーニングデータセットと学習アルゴリズムを考えると、ターゲットのバリデーションやテストパフォーマンスに到達するのに、どれくらいのデータが必要か?
この問題は、データ収集が高価で時間を要する自動運転や医療画像などの応用において重要である。
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
ニューラルスケーリング法則に関する以前の研究は、パワーロー関数が検証性能曲線に適合し、より大きなデータセットサイズに外挿できることを示唆している。
これは、ターゲットのパフォーマンスを満たすために必要なデータセットサイズを推定するより難しいダウンストリームタスクに、すぐには変換されない。
本研究では,幅広いコンピュータビジョンタスクを考察し,データ要求のより良い推定を可能にするパワーロー関数を一般化する関数群を体系的に検討する。
最後に,調整された補正係数を組み込んで複数のラウンドを収集することで,データ推定器の性能が大幅に向上することを示す。
本ガイドラインを用いて,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
関連論文リスト
- How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Certain and Approximately Certain Models for Statistical Learning [4.318959672085627]
特定のトレーニングデータや対象モデルに対して,不足値を持つデータから,正確なモデルを直接学習することが可能であることを示す。
我々は、理論的に保証された効率的なアルゴリズムを構築し、この必要条件を確認し、計算が不要な場合に正確なモデルを返す。
論文 参考訳(メタデータ) (2024-02-27T22:49:33Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - Where Should I Spend My FLOPS? Efficiency Evaluations of Visual
Pre-training Methods [29.141145775835106]
固定されたFLOP予算が与えられた場合、代表的な視覚的タスクに対して高い正確性を得るために最適なデータセット、モデル、そして(自己監督的な)トレーニング方法は何ですか?
5つの大規模データセット(JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO)と6つの事前学習方法(CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised)を検討した。
本稿の結果は,自己管理手法が本質的に大規模で未処理なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2022-09-30T17:04:55Z) - Training from Zero: Radio Frequency Machine Learning Data Quantity Forecasting [0.0]
任意のアプリケーション空間でトレーニング中に使用されるデータは、一度デプロイされたシステムのパフォーマンスに直接関連している。
機械学習の分野で使われている親指の基本的なルールの1つは、より多くのデータがより良いモデルにつながることだ。
本研究では,電波周波数領域における変調分類問題について検討する。
論文 参考訳(メタデータ) (2022-05-07T18:45:06Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。