論文の概要: Learning from Synthetic Data: Limitations of ERM
- arxiv url: http://arxiv.org/abs/2601.15468v1
- Date: Wed, 21 Jan 2026 21:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.415915
- Title: Learning from Synthetic Data: Limitations of ERM
- Title(参考訳): 合成データから学ぶ:EMMの限界
- Authors: Kareem Amin, Alex Bie, Weiwei Kong, Umar Syed, Sergei Vassilvitskii,
- Abstract要約: レビューサイトから裁判所文書まで、ナチュラル'のコンテンツは、自然データに類似しているように見えるデータポイントによって汚染されてきたが、実際はLSMが生成している。
我々は、このシナリオを、入力が自然データと合成データの混合である学習タスクのシーケンスとしてモデル化する。
任意のVCクラスと任意の量の汚染に対する正しい仮説を学習できるアルゴリズムが存在することを示す。
- 参考スコア(独自算出の注目度): 19.496543753860944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence and low cost of LLMs have led to a rise of synthetic content. From review sites to court documents, ``natural'' content has been contaminated by data points that appear similar to natural data, but are in fact LLM-generated. In this work we revisit fundamental learning theory questions in this, now ubiquitous, setting. We model this scenario as a sequence of learning tasks where the input is a mix of natural and synthetic data, and the learning algorithms are oblivious to the origin of any individual example. We study the possibilities and limitations of ERM in this setting. For the problem of estimating the mean of an arbitrary $d$-dimensional distribution, we find that while ERM converges to the true mean, it is outperformed by an algorithm that assigns non-uniform weights to examples from different generations of data. For the PAC learning setting, the disparity is even more stark. We find that ERM does not always converge to the true concept, echoing the model collapse literature. However, we show there are algorithms capable of learning the correct hypothesis for arbitrary VC classes and arbitrary amounts of contamination.
- Abstract(参考訳): LLMの有病率と低コストは、合成成分の上昇に繋がった。
レビューサイトから裁判所文書まで、「自然」の内容は、自然データに類似したように見えるデータポイントによって汚染されてきたが、実際はLLM生成である。
この研究では、基本的な学習理論の問題を再考する。
我々は、このシナリオを、入力が自然データと合成データの混合である学習タスクのシーケンスとしてモデル化し、学習アルゴリズムは、個々の例の起点に偏っている。
本研究では,この環境におけるERMの可能性と限界について検討する。
任意の$d$-dimensional分布の平均を推定する問題に対して、ERMは真の平均に収束するが、非一様重みを異なる世代のデータから例に割り当てるアルゴリズムにより性能が向上することがわかった。
PACの学習環境にとって、格差はさらに深刻だ。
ERMは必ずしも真の概念に収束せず、モデル崩壊の文献を反映している。
しかし、任意のVCクラスと任意の量の汚染に対して正しい仮説を学習できるアルゴリズムがあることが示されている。
関連論文リスト
- Proper Learnability and the Role of Unlabeled Data [10.168670899305232]
適切な学習可能性が論理的に決定不可能な問題、すなわちZFC公理に依存しない問題が存在することを示す。
そこで本研究では,PACモデルにおいて,適切な学習可能性の特性を損なう不確実性に関するすべての結果を示す。
論文 参考訳(メタデータ) (2025-02-14T18:41:53Z) - Understanding Self-Supervised Learning via Gaussian Mixture Models [19.51336063093898]
本研究では,ガウス混合モデルにおける自己教師付き学習を自然な文脈で分析する。
ガウスアンが等方的でない場合でも、バニラコントラスト学習が最適の下次元部分空間を見つけることができることを示す。
この設定では、対照的な学習が漁師最適部分空間のサブセットを学習し、学習した表現から全てのノイズを効果的に除去することを示す。
論文 参考訳(メタデータ) (2024-11-05T21:43:05Z) - Prospective Learning: Learning for a Dynamic Future [30.449933525877537]
現実世界のアプリケーションでは、データの分散とゴールは時間とともに進化します。
データと目標の動的な性質に対処する既存の戦略は、現実世界のパフォーマンスが劣っていることを示している。
「振り返り学習」は、最適仮説が時間とともに変化する状況に合わせて調整される。
論文 参考訳(メタデータ) (2024-10-31T18:03:17Z) - Collapse or Thrive? Perils and Promises of Synthetic Data in a Self-Generating World [19.266191284270793]
生成機械学習モデルは、以前のモデルによって生成されたデータを含むWebスケールデータセットで事前訓練される。
先行研究の中には、ウェブが合成データに圧倒されているため、"モデル崩壊"を警告するものもある。
本稿では,3つの生成モデルタスクセットにまたがるデータ(トレーニング・ワークフロー)の3つの使い方について実験を行った。
論文 参考訳(メタデータ) (2024-10-22T05:49:24Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - ReLU Regression with Massart Noise [52.10842036932169]
本稿では、ReLU回帰の基本的問題として、Rectified Linear Units(ReLU)をデータに適合させることを目標としている。
我々は自然およびよく研究された半ランダムノイズモデルであるMassartノイズモデルにおけるReLU回帰に着目した。
このモデルにおいて,パラメータの正確な回復を実現する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-10T02:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。