論文の概要: Scaling laws for learning with real and surrogate data
- arxiv url: http://arxiv.org/abs/2402.04376v2
- Date: Fri, 28 Jun 2024 15:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:44:37.928981
- Title: Scaling laws for learning with real and surrogate data
- Title(参考訳): 実データと代理データによる学習法則のスケーリング
- Authors: Ayush Jain, Andrea Montanari, Eren Sasoglu,
- Abstract要約: シュロゲートデータをトレーニングに統合するための重み付き経験的リスク最小化(ERM)アプローチを導入する。
$(i)$ サロゲートデータを統合すれば、元のディストリビューションにおけるテストエラーを大幅に削減できる。
$(ii)$ 代理データの利点を享受するためには、最適な重み付けのERMを使用することが重要です。
- 参考スコア(独自算出の注目度): 12.617392961074096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting large quantities of high-quality data can be prohibitively expensive or impractical, and a bottleneck in machine learning. One may instead augment a small set of $n$ data points from the target distribution with data from more accessible sources, e.g. data collected under different circumstances or synthesized by generative models. We refer to such data as `surrogate data.' We introduce a weighted empirical risk minimization (ERM) approach for integrating surrogate data into training. We analyze mathematically this method under several classical statistical models, and validate our findings empirically on datasets from different domains. Our main findings are: $(i)$ Integrating surrogate data can significantly reduce the test error on the original distribution. Surprisingly, this can happen even when the surrogate data is unrelated to the original ones. We trace back this behavior to the classical Stein's paradox. $(ii)$ In order to reap the benefit of surrogate data, it is crucial to use optimally weighted ERM. $(iii)$ The test error of models trained on mixtures of real and surrogate data is approximately described by a scaling law. This scaling law can be used to predict the optimal weighting scheme, and to choose the amount of surrogate data to add.
- Abstract(参考訳): 大量の高品質なデータを収集することは、違法に高価または非現実的であり、機械学習のボトルネックとなる可能性がある。
代わりに、ターゲットのディストリビューションから、よりアクセスしやすいソース、例えば異なる状況下で収集されたデータ、あるいは生成モデルによって合成されたデータによって、小さな$n$のデータポイントを増大させることができる。
このようなデータを「代理データ」と呼ぶ。
「重み付き経験的リスク最小化(ERM)アプローチを導入し,サロゲートデータをトレーニングに統合する。
本手法をいくつかの古典的統計モデルで数学的に解析し,異なる領域のデータセット上で実験的に検証した。
主な発見は以下のとおりである。
(i)$サロゲートデータの積分は、元の分布におけるテストエラーを著しく減少させる。
驚くべきことに、サロゲートデータが元のデータとは無関係である場合でも、これは起こりうる。
我々はこの振る舞いを古典的なスタインのパラドックスに遡る。
$
(ii)データサロゲートの利点を享受するためには,最適重み付きEMMを用いることが重要である。
$
(iii)$ 実データと代理データの混合で訓練されたモデルのテストエラーは、概ねスケーリング法則によって記述される。
このスケーリング法則は、最適な重み付けスキームを予測し、追加するサロゲートデータの量を選択するために使用することができる。
関連論文リスト
- Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining [47.77701041534746]
本研究は、データ混合物の低コストプロキシに基づく戦略を検証することによって、制限に対処する。
我々は、データ量と混合比率の両方を正確にモデル化する、$textbfBiMix$と呼ばれる統一スケーリング法を提案する。
この結果から,エントロピー駆動のトレーニングフリーなデータ混合は,資源集約的な手法よりも同等あるいはそれ以上の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-05-23T09:44:02Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Towards a methodology for addressing missingness in datasets, with an
application to demographic health datasets [0.0]
本稿では, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせることで, 欠落データ問題に対処する手法を提案する。
以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 %$と 80 %$ on $a) $ an unseen real dataset and $b)$ an unseen reserve synthetic test dataset と予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-05T09:02:30Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models [0.0]
ミスリーディングや不要なデータは、マシンラーニング(ML)モデルの健全性や正確性に大きく影響します。
本稿では,データセット内の重要な情報を特定するシーケンシャルな選択法を提案する。
これらの不安定性は、基礎となるマップの複雑さの結果であり、極端な事象や重い尾と結びついている。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。