Fugu-MT 論文翻訳(概要): Scaling laws for learning with real and surrogate data

論文の概要: Scaling laws for learning with real and surrogate data

arxiv url: http://arxiv.org/abs/2402.04376v1
Date: Tue, 6 Feb 2024 20:30:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 18:09:54.973169
Title: Scaling laws for learning with real and surrogate data
Title（参考訳）: 実データと代理データによる学習法則のスケーリング
Authors: Ayush Jain, Andrea Montanari and Eren Sasoglu
Abstract要約: シュロゲートデータをトレーニングに統合することで、元のディストリビューションでのテストエラーを大幅に削減できる。実データと代理データの混合に基づいてトレーニングされたモデルのテストエラーは、スケーリング法則によってよく説明される。
参考スコア（独自算出の注目度）: 14.18068523784685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Collecting large quantities of high-quality data is often prohibitively expensive or impractical, and a crucial bottleneck in machine learning. One may instead augment a small set of $n$ data points from the target distribution with data from more accessible sources like public datasets, data collected under different circumstances, or synthesized by generative models. Blurring distinctions, we refer to such data as `surrogate data'. We define a simple scheme for integrating surrogate data into training and use both theoretical models and empirical studies to explore its behavior. Our main findings are: $(i)$ Integrating surrogate data can significantly reduce the test error on the original distribution; $(ii)$ In order to reap this benefit, it is crucial to use optimally weighted empirical risk minimization; $(iii)$ The test error of models trained on mixtures of real and surrogate data is well described by a scaling law. This can be used to predict the optimal weighting and the gain from surrogate data.
Abstract（参考訳）: 大量の高品質なデータを収集することは、しばしば高価で非現実的であり、機械学習における重要なボトルネックである。ターゲットディストリビューションから、よりアクセスしやすい公開データセット、異なる状況下で収集されたデータ、または生成モデルによって合成されたデータを使って、小さなセットのn$データポイントを拡張できる。ぼやけた区別では、データを‘surrogate data’と呼ぶ。我々は,サロゲートデータをトレーニングに統合するための簡単なスキームを定義し,理論モデルと経験的研究の両方を用いてその振る舞いを探索する。主な発見は次のとおりです。 (i)$ integrated surrogate dataは、オリジナルのディストリビューションのテストエラーを大幅に削減できる。 (ii)$ この利益を得るためには、最適に重み付けされた経験的リスク最小化を使用することが不可欠である。 (iii)$ 実データと代理データの混合で訓練されたモデルのテストエラーは、スケーリング法則によってよく説明される。これは、代理データから最適な重み付けと利得を予測するために使用できる。

関連論文リスト

Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
Data Mixture Optimization: A Multi-fidelity Multi-scale Bayesian Framework [10.317740844867913]
我々は,SlimPajamaデータセットから,さまざまなデータ構成を用いて,472言語モデルによる事前学習実行をベースとしたシミュレータを構築した。単純な取得関数でさえ、20Mから1Bまでのトレーニングモデル間で、原則化されたトレーニング決定を可能にすることを観察する。
論文参考訳（メタデータ） (2025-03-26T22:19:47Z)
Statistically Testing Training Data for Unwanted Error Patterns using Rule-Oriented Regression [0.5831737970661137]
本稿では,欠陥に対するトレーニングデータをテストし,その後の機械学習モデルのトレーニングのための信頼性の高い基盤構造を確立する方法を提案する。我々の手法は、テスト条件'をデータ内のパターンを記述する条件とすることで、従来の統計的テストの能力を拡張します。デモと実験のためのオープンソース実装を提供しています。
論文参考訳（メタデータ） (2025-03-24T09:52:36Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題ですペアデータとペアデータの両方を統合する新しいパラダイムを提案する。提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文参考訳（メタデータ） (2024-10-03T16:12:59Z)
Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文参考訳（メタデータ） (2024-04-10T17:27:54Z)
From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文参考訳（メタデータ） (2023-08-08T19:52:28Z)
Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文参考訳（メタデータ） (2023-06-05T04:34:54Z)
Membership Inference Attacks against Synthetic Data through Overfitting Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文参考訳（メタデータ） (2023-02-24T11:27:39Z)
Towards a methodology for addressing missingness in datasets, with an application to demographic health datasets [0.0]
本稿では, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせることで, 欠落データ問題に対処する手法を提案する。以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 %$と 80 %$ on $a) $ an unseen real dataset and $b)$ an unseen reserve synthetic test dataset と予測できることがわかった。
論文参考訳（メタデータ） (2022-11-05T09:02:30Z)
Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文参考訳（メタデータ） (2022-10-05T09:17:27Z)
Information FOMO: The unhealthy fear of missing out on information. A method for removing misleading data for healthier models [0.0]
ミスリーディングや不要なデータは、マシンラーニング(ML)モデルの健全性や正確性に大きく影響します。本稿では,データセット内の重要な情報を特定するシーケンシャルな選択法を提案する。これらの不安定性は、基礎となるマップの複雑さの結果であり、極端な事象や重い尾と結びついている。
論文参考訳（メタデータ） (2022-08-27T19:43:53Z)
Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文参考訳（メタデータ） (2022-08-15T17:42:27Z)
Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文参考訳（メタデータ） (2022-02-01T18:15:24Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。