論文の概要: Insights into Pre-training via Simpler Synthetic Tasks
- arxiv url: http://arxiv.org/abs/2206.10139v1
- Date: Tue, 21 Jun 2022 06:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:27:39.969473
- Title: Insights into Pre-training via Simpler Synthetic Tasks
- Title(参考訳): 簡便な合成タスクによる事前学習への洞察
- Authors: Yuhuai Wu, Felix Li, Percy Liang
- Abstract要約: 合成タスクの事前学習さえも、下流タスクにおいて顕著な向上を達成できることを示す。
合成事前学習法では, 自然予学習の利点の67%の平均値が得られた。
- 参考スコア(独自算出の注目度): 82.85786024923209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training produces representations that are effective for a wide range of
downstream tasks, but it is still unclear what properties of pre-training are
necessary for effective gains. Notably, recent work shows that even
pre-training on synthetic tasks can achieve significant gains in downstream
tasks. In this work, we perform three experiments that iteratively simplify
pre-training and show that the simplifications still retain much of its gains.
First, building on prior work, we perform a systematic evaluation of three
existing synthetic pre-training methods on six downstream tasks. We find the
best synthetic pre-training method, LIME, attains an average of $67\%$ of the
benefits of natural pre-training. Second, to our surprise, we find that
pre-training on a simple and generic synthetic task defined by the Set function
achieves $65\%$ of the benefits, almost matching LIME. Third, we find that
$39\%$ of the benefits can be attained by using merely the parameter statistics
of synthetic pre-training. We release the source code at
https://github.com/felixzli/synthetic_pretraining.
- Abstract(参考訳): 事前トレーニングは、幅広い下流タスクに有効な表現を生成するが、効果的なゲインのために、事前トレーニングのどのような特性が必要なのかはまだ不明である。
特に最近の研究は、合成タスクの事前学習でさえ、下流タスクの大幅な向上を達成できることを示している。
本研究では,事前学習を反復的に単純化する3つの実験を行い,単純化が依然として多くの利益を維持できることを示す。
まず,6つのダウンストリームタスクにおいて,既存の3つの合成事前学習手法を体系的に評価する。
最も優れた合成前トレーニング方法であるlimeは、自然前トレーニングの利点のうち平均で6,7\%の値に達する。
次に、驚いたことに、セット関数によって定義される単純で汎用的な合成タスクの事前トレーニングは、ほとんどlimeと一致して、その利点の65\%を実現した。
第3に, 合成前トレーニングのパラメータ統計のみを用いることで, 利点の39\%$が得られることがわかった。
ソースコードはhttps://github.com/felixzli/synthetic_pretrainingでリリースします。
関連論文リスト
- Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Pre-training with Synthetic Data Helps Offline Reinforcement Learning [4.531082205797088]
性能向上には言語が不可欠ではないことを示す。
次に、人気のあるオフラインDRLアルゴリズムである保守的Q-Learning(CQL)について検討する。
驚くべきことに、少数の更新のための単純な合成データによる事前トレーニングにより、CQLも改善される。
論文 参考訳(メタデータ) (2023-10-01T19:32:14Z) - Task-Robust Pre-Training for Worst-Case Downstream Adaptation [62.05108162160981]
プレトレーニングは下流のタスクに移行することで大きな成功を収めた。
本稿では,下流タスクに対する一様性能を保証するモデルについて,事前学習について考察する。
論文 参考訳(メタデータ) (2023-06-21T07:43:23Z) - Efficient NLP Model Finetuning via Multistage Data Filtering [11.058786955754004]
ターゲットモデルのトレーニングと合わせて,トレーニングサンプルをストリーミング形式でフィルタすることにしました。
1)後方トレーニングパスをスキップするためのトレーニング損失閾値を自動的に決定し,(2)前方トレーニングパスをスキップするためのメタ予測器を実行する。
本手法では,必要なトレーニング例を最大5.3$times$に,トレーニング時間を最大6.8$times$に短縮する。
論文 参考訳(メタデータ) (2022-07-28T21:43:31Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Identifying Suitable Tasks for Inductive Transfer Through the Analysis
of Feature Attributions [78.55044112903148]
我々は、単一タスクモデル間のニューラルネットワークアクティベーションの比較を通じて、タスクペアが相補的になるかどうかを予測するために、説明可能性技術を使用する。
提案手法により,TREC-IS 2020-Aデータセットでは,正のクラスF1の0.034の削減に留まらず,最大83.5%のトレーニング時間を短縮することが可能である。
論文 参考訳(メタデータ) (2022-02-02T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。