論文の概要: Scaling laws for learning with real and surrogate data
- arxiv url: http://arxiv.org/abs/2402.04376v1
- Date: Tue, 6 Feb 2024 20:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:09:54.973169
- Title: Scaling laws for learning with real and surrogate data
- Title(参考訳): 実データと代理データによる学習法則のスケーリング
- Authors: Ayush Jain, Andrea Montanari and Eren Sasoglu
- Abstract要約: シュロゲートデータをトレーニングに統合することで、元のディストリビューションでのテストエラーを大幅に削減できる。
実データと代理データの混合に基づいてトレーニングされたモデルのテストエラーは、スケーリング法則によってよく説明される。
- 参考スコア(独自算出の注目度): 14.18068523784685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting large quantities of high-quality data is often prohibitively
expensive or impractical, and a crucial bottleneck in machine learning. One may
instead augment a small set of $n$ data points from the target distribution
with data from more accessible sources like public datasets, data collected
under different circumstances, or synthesized by generative models. Blurring
distinctions, we refer to such data as `surrogate data'.
We define a simple scheme for integrating surrogate data into training and
use both theoretical models and empirical studies to explore its behavior. Our
main findings are: $(i)$ Integrating surrogate data can significantly reduce
the test error on the original distribution; $(ii)$ In order to reap this
benefit, it is crucial to use optimally weighted empirical risk minimization;
$(iii)$ The test error of models trained on mixtures of real and surrogate data
is well described by a scaling law. This can be used to predict the optimal
weighting and the gain from surrogate data.
- Abstract(参考訳): 大量の高品質なデータを収集することは、しばしば高価で非現実的であり、機械学習における重要なボトルネックである。
ターゲットディストリビューションから、よりアクセスしやすい公開データセット、異なる状況下で収集されたデータ、または生成モデルによって合成されたデータを使って、小さなセットのn$データポイントを拡張できる。
ぼやけた区別では、データを‘surrogate data’と呼ぶ。
我々は,サロゲートデータをトレーニングに統合するための簡単なスキームを定義し,理論モデルと経験的研究の両方を用いてその振る舞いを探索する。
主な発見は次のとおりです。
(i)$ integrated surrogate dataは、オリジナルのディストリビューションのテストエラーを大幅に削減できる。
(ii)$ この利益を得るためには、最適に重み付けされた経験的リスク最小化を使用することが不可欠である。
(iii)$ 実データと代理データの混合で訓練されたモデルのテストエラーは、スケーリング法則によってよく説明される。
これは、代理データから最適な重み付けと利得を予測するために使用できる。
関連論文リスト
- Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Towards a methodology for addressing missingness in datasets, with an
application to demographic health datasets [0.0]
本稿では, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせることで, 欠落データ問題に対処する手法を提案する。
以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 %$と 80 %$ on $a) $ an unseen real dataset and $b)$ an unseen reserve synthetic test dataset と予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-05T09:02:30Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z) - Mechanisms that Incentivize Data Sharing in Federated Learning [90.74337749137432]
我々は、データ共有の利点が完全に損なわれているような、ナイーブなスキームが破滅的なフリーライディングのレベルにどのように結びつくかを示す。
次に,各エージェントが生成するデータ量を最大化する精度形成機構を導入する。
論文 参考訳(メタデータ) (2022-07-10T22:36:52Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文 参考訳(メタデータ) (2022-02-03T18:04:54Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。