論文の概要: Why Less is More (Sometimes): A Theory of Data Curation
- arxiv url: http://arxiv.org/abs/2511.03492v1
- Date: Wed, 05 Nov 2025 14:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.444777
- Title: Why Less is More (Sometimes): A Theory of Data Curation
- Title(参考訳): なぜ少ないのか(時々):データキュレーションの理論
- Authors: Elvis Dohmatob, Mohammad Pezeshki, Reyhane Askari-Hemmat,
- Abstract要約: 本研究では,不完全なオラクルがそれらの困難さと正確さに応じてトレーニング例を選択するデータキュレーション戦略について検討する。
本結果は,ラベル非依存およびラベル対応のキュレーションルールの下で,テストエラーの正確なスケーリング法則曲線を提供する。
古典的なスケーリング法則とは対照的に、特定の条件下では、小さなキュレートされたデータセットが完全なデータセットより優れていることを示す。
- 参考スコア(独自算出の注目度): 19.26882538658392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a theoretical framework to resolve a central paradox in modern machine learning: When is it better to use less data? This question has become critical as classical scaling laws suggesting ``more is more'' (Sun et al., 2025) are challenged by methods like LIMO (``less is more'') and s1 (Ye et al., 2025; Muenighoff et al., 2025), which achieve superior performance with small, aggressively curated datasets. Here, we study data curation strategies where an imperfect oracle selects the training examples according to their difficulty and correctness. Our results provide exact scaling law curves for test error under both label-agnostic and label-aware curation rules, revealing when and why keeping only a subset of data can improve generalization. In contrast to classical scaling laws, we show that under certain conditions, small curated datasets can outperform full datasets, and we provide analytical conditions for this by deriving precise phase transition curves tied to data size and quality. We validate these theoretical claims with empirical results on ImageNet, confirming our predictions about when curation improves accuracy and can even mitigate model collapse. Furthermore, our framework provides a principled explanation for the contradictory curation strategies recently observed in LLM mathematical reasoning.
- Abstract(参考訳): 本稿では、現代の機械学習における中心的なパラドックスを解決するための理論的枠組みを紹介する。
この問題は、"より多く"(Sun et al , 2025)がLIMO(``less is more')やs1(Ye et al , 2025; Muenighoff et al , 2025)のような方法によって挑戦され、小規模で積極的にキュレートされたデータセットで優れたパフォーマンスを達成するという古典的なスケーリング法として批判されている。
本稿では,不完全なオラクルが,その難易度と正確性に応じてトレーニング例を選択するデータキュレーション戦略について検討する。
その結果,ラベル非依存およびラベル対応のキュレーションルールの下でテストエラーを正確にスケーリングする法則曲線が得られた。
古典的なスケーリング法則とは対照的に、特定の条件下では、小さなキュレートされたデータセットは完全なデータセットよりも優れており、データサイズと品質に結びついた正確な位相遷移曲線を導出することにより、解析的な条件を提供する。
我々は、これらの理論的な主張をImageNet上で実証的な結果で検証し、キュレーションが精度を向上し、モデル崩壊を緩和できるかどうかの予測を確認した。
さらに,本フレームワークは,LLMの数学的推論において最近観察された矛盾するキュレーション戦略の原理的説明を提供する。
関連論文リスト
- Practical estimation of the optimal classification error with soft labels and calibration [47.001801756596926]
我々は,ベイズ誤差,最適誤差率を推定するために,ソフトラベルを用いた以前の研究を拡張した。
我々は、破損したソフトラベルによる推定という、より困難な問題に取り組みます。
私たちのメソッドはインスタンスフリーです。つまり、入力インスタンスへのアクセスを前提としません。
論文 参考訳(メタデータ) (2025-05-27T06:04:57Z) - Scaling Laws for Data-Efficient Visual Transfer Learning [14.114908296325277]
本稿では,視覚伝達学習におけるデータ効率のスケーリング法則に関する最初の実践的枠組みを確立する。
本稿では,蒸留効率の重要な転換点を明らかにする蒸留境界理論を提案する。
この研究は、データ制限されたレシエーションのスケーリング法則を再定義し、大規模事前学習と実践的な下流適応の知識ギャップを埋める。
論文 参考訳(メタデータ) (2025-04-17T07:01:01Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - TCGU: Data-centric Graph Unlearning based on Transferable Condensation [36.670771080732486]
Transferable Condensation Graph Unlearning (TCGU)は、ゼロガンスグラフアンラーニングのためのデータ中心のソリューションである。
我々は,TGUが既存のGU手法よりもモデルユーティリティ,未学習効率,未学習効率において優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-09T02:14:40Z) - Unbiased Supervised Contrastive Learning [10.728852691100338]
本研究では,バイアスに頑健な表現を学習する問題に取り組む。
まず、偏りのあるデータを扱う際に、最近の対照的な損失がなぜ失敗するのかを明らかにするための、マージンに基づく理論的枠組みを提案する。
教師付きコントラスト損失(epsilon-SupInfoNCE)を新たに定式化し,正試料と負試料の最小距離をより正確に制御する。
理論的な枠組みのおかげで、極めて偏りのあるデータでもうまく機能する新しい偏りのある正規化損失であるFairKLも提案する。
論文 参考訳(メタデータ) (2022-11-10T13:44:57Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。