論文の概要: Scaling Laws for Transfer
- arxiv url: http://arxiv.org/abs/2102.01293v1
- Date: Tue, 2 Feb 2021 04:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 10:33:04.504202
- Title: Scaling Laws for Transfer
- Title(参考訳): 転送のスケーリング法則
- Authors: Danny Hernandez, Jared Kaplan, Tom Henighan, and Sam McCandlish
- Abstract要約: 本研究では,教師なし微調整環境における分布間の移動学習のスケーリング法則について検討する。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
- 参考スコア(独自算出の注目度): 0.5432984841650929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study empirical scaling laws for transfer learning between distributions
in an unsupervised, fine-tuning setting. When we train increasingly large
neural networks from-scratch on a fixed-size dataset, they eventually become
data-limited and stop improving in performance (cross-entropy loss). When we do
the same for models pre-trained on a large language dataset, the slope in
performance gains is merely reduced rather than going to zero. We calculate the
effective data "transferred" from pre-training by determining how much data a
transformer of the same size would have required to achieve the same loss when
training from scratch. In other words, we focus on units of data while holding
everything else fixed. We find that the effective data transferred is described
well in the low data regime by a power-law of parameter count and fine-tuning
dataset size. We believe the exponents in these power-laws correspond to
measures of the generality of a model and proximity of distributions (in a
directed rather than symmetric sense). We find that pre-training effectively
multiplies the fine-tuning dataset size. Transfer, like overall performance,
scales predictably in terms of parameters, data, and compute.
- Abstract(参考訳): 教師なしの微調整環境下における分布間の移動学習のための経験的スケーリング法について検討する。
ますます大きなニューラルネットワークを固定サイズのデータセット上でスクラッチからトレーニングすると、最終的にはデータ制限となり、パフォーマンス(クロスエントロピー損失)が向上しなくなります。
大きな言語データセットで事前トレーニングされたモデルで同じことをすると、パフォーマンス向上の勾配はゼロになるよりも単に小さくなります。
同じサイズのトランスフォーマーが、スクラッチからトレーニングする際に同じ損失を達成するために必要なデータ量を決定することにより、事前トレーニングから“転送”された有効データを計算する。
言い換えれば、私たちはデータの単位に集中し、他のすべてを固定します。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
これらのパワーローの指数は、モデルの一般性と分布の近さ(対称性ではなく指向性)の尺度に対応すると信じています。
事前学習は、微調整データセットのサイズを効果的に乗算する。
全体的なパフォーマンスと同様に、転送はパラメータ、データ、計算の観点で予測できるスケールである。
関連論文リスト
- A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Data Aggregation for Reducing Training Data in Symbolic Regression [0.0]
本研究は、トレーニングデータを削減する方法と、遺伝的プログラミングのランタイムについても論じる。
K平均クラスタリングとデータビンニングはデータアグリゲーションに使われ、最も単純なデータリダクション法としてランダムサンプリングと比較される。
遺伝的プログラミングの性能は、ランダムな森林と線形回帰と比較される。
論文 参考訳(メタデータ) (2021-08-24T11:58:17Z) - Effect of large-scale pre-training on full and few-shot transfer
learning for natural and medical images [2.030567625639093]
我々は,自然(ImageNet-21k/1k)と医用胸部X線画像のいずれにおいても,大規模な事前トレーニングを行う。
自然画像領域と医用画像領域の両方の異なるターゲットデータセットを用いて、フルショットと少数ショットの転送を比較した。
我々の観察は、近縁なデータセットの事前トレーニングと転送は、事前トレーニング中にモデルとデータサイズが増加するという明らかな利点を示すが、ソースとターゲットデータセットがさらに離れている場合、そのような利点は明らかでないことを示す。
論文 参考訳(メタデータ) (2021-05-31T21:55:56Z) - Learning Invariances in Neural Networks [51.20867785006147]
ネットワークパラメータや拡張パラメータに関して,拡張性よりも分布をパラメータ化し,トレーニング損失を同時に最適化する方法を示す。
画像分類,回帰,セグメンテーション,分子特性予測における不均一性の正確なセットと範囲を,拡張の広い空間から復元することができる。
論文 参考訳(メタデータ) (2020-10-22T17:18:48Z) - On the Generalization Effects of Linear Transformations in Data
Augmentation [32.01435459892255]
線形変換の族を考えるとともに、過度にパラメータ化された線形回帰設定におけるリッジ推定器への影響について検討する。
トレーニングデータのスパンを大きくすることで,データラベルを保存した変換により,推定精度が向上することを示す。
本稿では,モデルが変換データに対してどの程度不確実であるかによって,変換空間を探索する拡張手法を提案する。
論文 参考訳(メタデータ) (2020-05-02T04:10:21Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。