論文の概要: Blessing of Class Diversity in Pre-training
- arxiv url: http://arxiv.org/abs/2209.03447v1
- Date: Wed, 7 Sep 2022 20:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:36:17.798432
- Title: Blessing of Class Diversity in Pre-training
- Title(参考訳): プレトレーニングにおけるクラス多様性の祝福
- Authors: Yulai Zhao, Jianshu Chen, Simon S. Du
- Abstract要約: 事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。
我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
- 参考スコア(独自算出の注目度): 54.335530406959435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new statistical analysis aiming to explain the recent
superior achievements of the pre-training techniques in natural language
processing (NLP). We prove that when the classes of the pre-training task
(e.g., different words in the masked language model task) are sufficiently
diverse, in the sense that the least singular value of the last linear layer in
pre-training (denoted as $\tilde{\nu}$) is large, then pre-training can
significantly improve the sample efficiency of downstream tasks. Specially, we
show the transfer learning excess risk enjoys an $O\left(\frac{1}{\tilde{\nu}
\sqrt{n}}\right)$ rate, in contrast to the $O\left(\frac{1}{\sqrt{m}}\right)$
rate in the standard supervised learning. Here, $n$ is the number of
pre-training data and $m$ is the number of data in the downstream task, and
typically $n \gg m$. Our proof relies on a vector-form Rademacher complexity
chain rule for disassembling composite function classes and a modified
self-concordance condition. These techniques can be of independent interest.
- Abstract(参考訳): 本稿では,自然言語処理(NLP)における事前学習技術の最近の優れた成果を説明するために,新しい統計分析法を提案する。
事前学習タスクのクラス(例えば、マスク付き言語モデルタスクの異なる単語)が十分に多様である場合、事前学習における最後の線形層の最小特異値($\tilde{\nu}$)が大きくなるという意味で、事前学習は下流タスクのサンプル効率を大幅に向上させることができる。
特に、移行学習過剰リスクは、標準教師付き学習における$O\left(\frac{1}{\tilde{\nu} \sqrt{n}}\right)$レートと対照的に、$O\left(\frac{1}{\sqrt{m}}\right)$レートを楽しむことを示す。
ここで、$n$は事前トレーニングデータの数であり、$m$は下流タスクのデータ数であり、通常$n \gg m$である。
我々の証明は、合成関数クラスを分解するためのベクトル形式Radecher複雑性連鎖則と修正自己調和条件に依存している。
これらの技術は独立した関心を持つことができる。
関連論文リスト
- IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。
理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文 参考訳(メタデータ) (2024-05-24T00:08:55Z) - Pretraining task diversity and the emergence of non-Bayesian in-context
learning for regression [31.950737940558984]
事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す
ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
論文 参考訳(メタデータ) (2023-06-26T21:05:20Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - On the Provable Advantage of Unsupervised Pretraining [26.065736182939222]
教師なし事前学習は、現代の大規模機械学習システムにおいて重要な要素である。
本稿では、教師なし表現学習タスクを潜在変数モデルの抽象クラスで指定する汎用フレームワークについて検討する。
軽度の'informative'条件下では、下流タスクに対して$tildemathcalO(sqrtmathcalC_Phi/m + sqrtmathcalC_Psi/n)$の過剰なリスクを達成する。
論文 参考訳(メタデータ) (2023-03-02T20:42:05Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Mediated Uncoupled Learning: Learning Functions without Direct
Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。
単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。
我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文 参考訳(メタデータ) (2021-07-16T22:13:29Z) - Coresets for Classification -- Simplified and Strengthened [19.54307474041768]
損失関数の幅広いクラスを持つ線形分類器を訓練するための相対誤差コアセットを与える。
我々の構成は $tilde O(d cdot mu_y(X)2/epsilon2)$point, where $mu_y(X)$ は mathbbRn times d$ のデータ行列 $X と -1,1n$ のラベルベクトル $y の自然な複雑性測度である。
論文 参考訳(メタデータ) (2021-06-08T11:24:18Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。