論文の概要: Less Data, Faster Training: repeating smaller datasets speeds up learning via sampling biases
- arxiv url: http://arxiv.org/abs/2605.20314v1
- Date: Tue, 19 May 2026 17:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.293755
- Title: Less Data, Faster Training: repeating smaller datasets speeds up learning via sampling biases
- Title(参考訳): より少ないデータ、より速いトレーニング: より小さなデータセットを繰り返して、サンプリングバイアスによる学習を高速化する
- Authors: Jingwen Liu, Ezra Edelman, Surbhi Goel, Bingbin Liu,
- Abstract要約: このスピードアップは、サンプリングバイアスによって実現される適切な層ワイド成長に由来すると我々は主張する。
我々の結果は、より反復的な小さなデータセットを使用することは、単にデータ不足下でのフォールバック戦略ではないことを示唆している。
- 参考スコア(独自算出の注目度): 20.52777409820477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates the ``small-vs-large gap'', where repeating on fewer samples can lead to compute saving during training compared to using a larger dataset. This is observed across algorithmic tasks, architectures and optimizers and cannot be explained using prior theory. We argue that the speedup comes from appropriate layer-wise growth enabled by sampling biases, which is more pronounced when the dataset size is smaller. We provide both theoretical analysis and empirical evidence from various interventions. Our results suggest that using a smaller dataset with more repetitions is not just a fallback strategy under data scarcity, but can be proactively leveraged as a favorable inductive biases for optimization, particularly in reasoning tasks.
- Abstract(参考訳): この研究は‘小さめのvs-large gap’’を調査し、より少ないサンプルを繰り返すことで、より大きなデータセットを使用する場合と比較して、トレーニング中に計算の節約につながる可能性がある。
これはアルゴリズム的なタスク、アーキテクチャ、オプティマイザにまたがって観測され、以前の理論では説明できない。
我々は,データセットサイズが小さくなるとより顕著になるサンプリングバイアスにより,適切な層成長が可能となることを論じる。
様々な介入による理論的分析と経験的証拠を提供する。
我々の結果は、より反復的な小さなデータセットを使用することは、単にデータ不足下でのフォールバック戦略であるだけでなく、特に推論タスクにおいて、最適化に好適な帰納的バイアスとして積極的に活用できることを示唆している。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Less is More: Reducing Task and Model Complexity for 3D Point Cloud
Semantic Segmentation [26.94284739177754]
新しいパイプラインは、より優れたセグメンテーション精度を達成するために、より少ない地平線アノテーションを必要とする。
Sparse Depthwise Separable Convolutionモジュールは、ネットワークパラメータ数を著しく削減する。
新しいspatio-Temporal Redundant Frame Downsampling (ST-RFD) 法は、トレーニングデータフレームのより多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2023-03-20T15:36:10Z) - Last Layer Re-Training is Sufficient for Robustness to Spurious
Correlations [51.552870594221865]
最後の層再トレーニングは,突発的な相関ベンチマークにおいて,最先端の手法と一致するか,あるいは性能的に優れていることを示す。
また,大規模な画像ネット学習モデルにおける最終層の再トレーニングにより,背景情報やテクスチャ情報への依存を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-06T16:55:41Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。