論文の概要: An Empirical Study of Scaling Laws for Transfer
- arxiv url: http://arxiv.org/abs/2408.16947v1
- Date: Fri, 30 Aug 2024 00:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:49:05.154959
- Title: An Empirical Study of Scaling Laws for Transfer
- Title(参考訳): 移動のスケーリング法則に関する実証的研究
- Authors: Matthew Barnett,
- Abstract要約: 変圧器モデルにおける伝達学習のスケーリング法則に関する限定的な実証的研究を示す。
本稿では,ある分布に対する事前学習の有効性を,他の分布上での下流性能を最適化する場合に示し,「転送ギャップ」という用語を取り入れたスケーリング法について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a limited empirical study of scaling laws for transfer learning in transformer models. More specifically, we examine a scaling law that incorporates a "transfer gap" term, indicating the effectiveness of pre-training on one distribution when optimizing for downstream performance on another distribution. When the transfer gap is low, pre-training is a cost-effective strategy for improving downstream performance. Conversely, when the gap is high, collecting high-quality fine-tuning data becomes relatively more cost effective. Fitting the scaling law to experiments from diverse datasets reveals significant variations in the transfer gap across distributions. In theory, the scaling law can inform optimal data allocation strategies and highlights how the scarcity of downstream data can bottleneck performance. Our findings contribute to a principled way to measure transfer learning efficiency and understand how data availability affects capabilities.
- Abstract(参考訳): 変圧器モデルにおける伝達学習のスケーリング法則に関する限定的な実証的研究を示す。
具体的には、「転送ギャップ」という用語を取り入れたスケーリング法について検討し、他の分布の下流性能を最適化する際、ある分布に対する事前学習の有効性を示す。
転送ギャップが低い場合、事前学習は下流の性能を改善するためのコスト効率の良い戦略である。
逆に、ギャップが高い場合には、高品質な微調整データを収集する方が比較的コスト効率が良い。
多様なデータセットからの実験にスケーリング法則を適用すると、分散間の転送ギャップに大きなばらつきが見られる。
理論的には、スケーリング法則は最適なデータ割り当て戦略を通知し、下流データの不足がパフォーマンスをボトルネックにする方法を強調します。
我々の研究は、データ可用性が能力に与える影響を理解するために、転送学習効率を原則的に測定する方法に寄与する。
関連論文リスト
- Scaling Laws for Downstream Task Performance of Large Language Models [28.904224842085064]
プレトレーニングデータの選択が、下流のクロスエントロピーとBLEUスコアの2つの指標から判断された下流のパフォーマンス(翻訳品質)にどのように影響するかを検討する。
十分なアライメントで、下流のクロスエントロピーとBLEUスコアは、より事前トレーニングされたデータによって単調に改善される。
論文 参考訳(メタデータ) (2024-02-06T17:31:20Z) - Robust Transfer Learning with Unreliable Source Data [13.276850367115333]
対象関数とソース回帰関数との差を測定する「あいまい度レベル」と呼ばれる新しい量を導入する。
本稿では, 簡単な伝達学習手法を提案し, この新しい量が学習の伝達可能性にどのように関係しているかを示す一般的な定理を確立する。
論文 参考訳(メタデータ) (2023-10-06T21:50:21Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - ArCL: Enhancing Contrastive Learning with Augmentation-Robust
Representations [30.745749133759304]
我々は,自己教師付きコントラスト学習の伝達可能性を分析する理論的枠組みを開発する。
対照的な学習は、その伝達可能性を制限するような、ドメイン不変の機能を学ぶのに失敗することを示す。
これらの理論的知見に基づき、Augmentation-robust Contrastive Learning (ArCL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T09:26:20Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - A Data-Based Perspective on Transfer Learning [76.30206800557411]
転送学習におけるソースデータセットの合成の役割について,より詳しく検討する。
我々のフレームワークは、転送学習の脆さをピンポインティングするなど、新しい機能を生み出します。
論文 参考訳(メタデータ) (2022-07-12T17:58:28Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - Frustratingly Easy Transferability Estimation [64.42879325144439]
本稿では,TransRate という,シンプルで効率的かつ効果的な転送可能性尺度を提案する。
TransRateは、事前訓練されたモデルによって抽出された対象サンプルの特徴とそれらのラベルとの間の相互情報として、転送可能性を測定する。
10行のコードで並外れた単純さにもかかわらず、TransRateは、22の事前訓練されたモデルと16のダウンストリームタスクに対する広範囲な評価において、非常にうまく機能している。
論文 参考訳(メタデータ) (2021-06-17T10:27:52Z) - Scaling Laws for Transfer [0.5432984841650929]
本研究では,教師なし微調整環境における分布間の移動学習のスケーリング法則について検討する。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
論文 参考訳(メタデータ) (2021-02-02T04:07:38Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。