論文の概要: Scaling laws for learning with real and surrogate data
- arxiv url: http://arxiv.org/abs/2402.04376v1
- Date: Tue, 6 Feb 2024 20:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:09:54.973169
- Title: Scaling laws for learning with real and surrogate data
- Title(参考訳): 実データと代理データによる学習法則のスケーリング
- Authors: Ayush Jain, Andrea Montanari and Eren Sasoglu
- Abstract要約: シュロゲートデータをトレーニングに統合することで、元のディストリビューションでのテストエラーを大幅に削減できる。
実データと代理データの混合に基づいてトレーニングされたモデルのテストエラーは、スケーリング法則によってよく説明される。
- 参考スコア(独自算出の注目度): 14.18068523784685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting large quantities of high-quality data is often prohibitively
expensive or impractical, and a crucial bottleneck in machine learning. One may
instead augment a small set of $n$ data points from the target distribution
with data from more accessible sources like public datasets, data collected
under different circumstances, or synthesized by generative models. Blurring
distinctions, we refer to such data as `surrogate data'.
We define a simple scheme for integrating surrogate data into training and
use both theoretical models and empirical studies to explore its behavior. Our
main findings are: $(i)$ Integrating surrogate data can significantly reduce
the test error on the original distribution; $(ii)$ In order to reap this
benefit, it is crucial to use optimally weighted empirical risk minimization;
$(iii)$ The test error of models trained on mixtures of real and surrogate data
is well described by a scaling law. This can be used to predict the optimal
weighting and the gain from surrogate data.
- Abstract(参考訳): 大量の高品質なデータを収集することは、しばしば高価で非現実的であり、機械学習における重要なボトルネックである。
ターゲットディストリビューションから、よりアクセスしやすい公開データセット、異なる状況下で収集されたデータ、または生成モデルによって合成されたデータを使って、小さなセットのn$データポイントを拡張できる。
ぼやけた区別では、データを‘surrogate data’と呼ぶ。
我々は,サロゲートデータをトレーニングに統合するための簡単なスキームを定義し,理論モデルと経験的研究の両方を用いてその振る舞いを探索する。
主な発見は次のとおりです。
(i)$ integrated surrogate dataは、オリジナルのディストリビューションのテストエラーを大幅に削減できる。
(ii)$ この利益を得るためには、最適に重み付けされた経験的リスク最小化を使用することが不可欠である。
(iii)$ 実データと代理データの混合で訓練されたモデルのテストエラーは、スケーリング法則によってよく説明される。
これは、代理データから最適な重み付けと利得を予測するために使用できる。
関連論文リスト
- Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Towards a methodology for addressing missingness in datasets, with an
application to demographic health datasets [0.0]
本稿では, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせることで, 欠落データ問題に対処する手法を提案する。
以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 %$と 80 %$ on $a) $ an unseen real dataset and $b)$ an unseen reserve synthetic test dataset と予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-05T09:02:30Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models [0.0]
ミスリーディングや不要なデータは、マシンラーニング(ML)モデルの健全性や正確性に大きく影響します。
本稿では,データセット内の重要な情報を特定するシーケンシャルな選択法を提案する。
これらの不安定性は、基礎となるマップの複雑さの結果であり、極端な事象や重い尾と結びついている。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。