論文の概要: Scaling Laws for Transfer
- arxiv url: http://arxiv.org/abs/2102.01293v1
- Date: Tue, 2 Feb 2021 04:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 10:33:04.504202
- Title: Scaling Laws for Transfer
- Title(参考訳): 転送のスケーリング法則
- Authors: Danny Hernandez, Jared Kaplan, Tom Henighan, and Sam McCandlish
- Abstract要約: 本研究では,教師なし微調整環境における分布間の移動学習のスケーリング法則について検討する。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
- 参考スコア(独自算出の注目度): 0.5432984841650929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study empirical scaling laws for transfer learning between distributions
in an unsupervised, fine-tuning setting. When we train increasingly large
neural networks from-scratch on a fixed-size dataset, they eventually become
data-limited and stop improving in performance (cross-entropy loss). When we do
the same for models pre-trained on a large language dataset, the slope in
performance gains is merely reduced rather than going to zero. We calculate the
effective data "transferred" from pre-training by determining how much data a
transformer of the same size would have required to achieve the same loss when
training from scratch. In other words, we focus on units of data while holding
everything else fixed. We find that the effective data transferred is described
well in the low data regime by a power-law of parameter count and fine-tuning
dataset size. We believe the exponents in these power-laws correspond to
measures of the generality of a model and proximity of distributions (in a
directed rather than symmetric sense). We find that pre-training effectively
multiplies the fine-tuning dataset size. Transfer, like overall performance,
scales predictably in terms of parameters, data, and compute.
- Abstract(参考訳): 教師なしの微調整環境下における分布間の移動学習のための経験的スケーリング法について検討する。
ますます大きなニューラルネットワークを固定サイズのデータセット上でスクラッチからトレーニングすると、最終的にはデータ制限となり、パフォーマンス(クロスエントロピー損失)が向上しなくなります。
大きな言語データセットで事前トレーニングされたモデルで同じことをすると、パフォーマンス向上の勾配はゼロになるよりも単に小さくなります。
同じサイズのトランスフォーマーが、スクラッチからトレーニングする際に同じ損失を達成するために必要なデータ量を決定することにより、事前トレーニングから“転送”された有効データを計算する。
言い換えれば、私たちはデータの単位に集中し、他のすべてを固定します。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
これらのパワーローの指数は、モデルの一般性と分布の近さ(対称性ではなく指向性)の尺度に対応すると信じています。
事前学習は、微調整データセットのサイズを効果的に乗算する。
全体的なパフォーマンスと同様に、転送はパラメータ、データ、計算の観点で予測できるスケールである。
関連論文リスト
- Loss-to-Loss Prediction: Scaling Laws for All Datasets [17.078832037614397]
我々は、ある損失を別の損失から予測し、異なる事前学習データセットにわたって予測するためにそれを適用する戦略を導出する。
我々の予測は、曲線に合わせるのに使われた最大のFLOP予算の20倍でさえ、よく表される。
論文 参考訳(メタデータ) (2024-11-19T23:23:16Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Effect of large-scale pre-training on full and few-shot transfer
learning for natural and medical images [2.030567625639093]
我々は,自然(ImageNet-21k/1k)と医用胸部X線画像のいずれにおいても,大規模な事前トレーニングを行う。
自然画像領域と医用画像領域の両方の異なるターゲットデータセットを用いて、フルショットと少数ショットの転送を比較した。
我々の観察は、近縁なデータセットの事前トレーニングと転送は、事前トレーニング中にモデルとデータサイズが増加するという明らかな利点を示すが、ソースとターゲットデータセットがさらに離れている場合、そのような利点は明らかでないことを示す。
論文 参考訳(メタデータ) (2021-05-31T21:55:56Z) - Learning Invariances in Neural Networks [51.20867785006147]
ネットワークパラメータや拡張パラメータに関して,拡張性よりも分布をパラメータ化し,トレーニング損失を同時に最適化する方法を示す。
画像分類,回帰,セグメンテーション,分子特性予測における不均一性の正確なセットと範囲を,拡張の広い空間から復元することができる。
論文 参考訳(メタデータ) (2020-10-22T17:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。