論文の概要: Loss-to-Loss Prediction: Scaling Laws for All Datasets
- arxiv url: http://arxiv.org/abs/2411.12925v1
- Date: Tue, 19 Nov 2024 23:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:49.858045
- Title: Loss-to-Loss Prediction: Scaling Laws for All Datasets
- Title(参考訳): Loss-to-Loss予測: すべてのデータセットのスケーリング法則
- Authors: David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade,
- Abstract要約: 我々は、ある損失を別の損失から予測し、異なる事前学習データセットにわたって予測するためにそれを適用する戦略を導出する。
我々の予測は、曲線に合わせるのに使われた最大のFLOP予算の20倍でさえ、よく表される。
- 参考スコア(独自算出の注目度): 17.078832037614397
- License:
- Abstract: While scaling laws provide a reliable methodology for predicting train loss across compute scales for a single data distribution, less is known about how these predictions should change as we change the distribution. In this paper, we derive a strategy for predicting one loss from another and apply it to predict across different pre-training datasets and from pre-training data to downstream task data. Our predictions extrapolate well even at 20x the largest FLOP budget used to fit the curves. More precisely, we find that there are simple shifted power law relationships between (1) the train losses of two models trained on two separate datasets when the models are paired by training compute (train-to-train), (2) the train loss and the test loss on any downstream distribution for a single model (train-to-test), and (3) the test losses of two models trained on two separate train datasets (test-to-test). The results hold up for pre-training datasets that differ substantially (some are entirely code and others have no code at all) and across a variety of downstream tasks. Finally, we find that in some settings these shifted power law relationships can yield more accurate predictions than extrapolating single-dataset scaling laws.
- Abstract(参考訳): スケーリング法則は、単一のデータ分散のための計算スケール間での列車損失を予測するための信頼できる方法論を提供するが、これらの予測が分散を変更する際にどのように変更されるべきかについては、あまり知られていない。
本稿では、ある損失を別の損失から予測する戦略を導出し、異なる事前学習データセットをまたいだ予測と、事前学習データから下流タスクデータへ適用する。
我々の予測は、曲線に合わせるのに使われた最大のFLOP予算の20倍でさえ、よく表される。
より正確には,(1)訓練計算(トレイン・トゥ・トレイン)と(2)1つのモデル(トレイン・トゥ・テスト)の下流分布における列車損失とテスト損失,(3)2つの異なるモデルでトレーニングした2つのモデル(テスト・トゥ・テスト)の試験損失との間には,単純なシフトパワー則関係があることが分かる。
結果は、かなり異なる事前トレーニングデータセット(一部は、完全にコードであり、他は、全くコードを持っていない)と、さまざまな下流タスクに当てはまる。
最後に、いくつかの環境では、これらのシフトしたパワーローの関係は、単一データセットのスケーリング法則を外挿するよりも正確な予測をもたらすことが分かる。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Delving into Sample Loss Curve to Embrace Noisy and Imbalanced Data [17.7825114228313]
破損したラベルとクラス不均衡は、実際に収集されたトレーニングデータでよく見られる。
既存のアプローチは、サンプルの再重み付け戦略を採用することで、これらの問題を緩和します。
しかし、ラベルが破損したサンプルと、訓練データに一般的に共存する尾のクラスは偏りがあった。
論文 参考訳(メタデータ) (2021-12-30T09:20:07Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z) - Towards optimally abstaining from prediction [22.937799541125607]
機械学習のあらゆる領域に共通する課題は、トレーニングデータがテストデータのように分散されていないことだ。
一定のコストで予測を控えるモデルを考える。
我々は、Goldwasser、Kalais、Montasser(2020年)の最近の禁断アルゴリズムに基づいて、トランスダクティブバイナリ分類を行った。
論文 参考訳(メタデータ) (2021-05-28T21:44:48Z) - Scaling Laws for Transfer [0.5432984841650929]
本研究では,教師なし微調整環境における分布間の移動学習のスケーリング法則について検討する。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
論文 参考訳(メタデータ) (2021-02-02T04:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。