論文の概要: On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets
- arxiv url: http://arxiv.org/abs/2109.03537v1
- Date: Wed, 8 Sep 2021 10:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 23:42:47.578586
- Title: On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets
- Title(参考訳): 事前学習言語モデルの伝達可能性について:人工データセットからの検討
- Authors: Cheng-Han Chiang and Hung-yi Lee
- Abstract要約: 大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
- 参考スコア(独自算出の注目度): 74.11825654535895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training language models (LMs) on large-scale unlabeled text data makes
the model much easier to achieve exceptional downstream performance than their
counterparts directly trained on the downstream tasks. In this work, we study
what specific traits in the pre-training data, other than the semantics, make a
pre-trained LM superior to their counterparts trained from scratch on
downstream tasks. We propose to use artificially constructed datasets as the
pre-training data to exclude the effect of semantics, and further control what
characteristics the pre-training corpora have. By fine-tuning the pre-trained
models on GLUE benchmark, we can learn how beneficial it is to transfer the
knowledge from the model trained on the dataset possessing that specific trait.
We define and discuss three different characteristics in the artificial
dataset: 1) matching the token's uni-gram or bi-gram distribution between
pre-training and downstream fine-tuning, 2) the presence of the explicit
dependencies among the tokens in a sequence, 3) the length of the implicit
dependencies among the tokens in a sequence. Our experiments show that the
explicit dependencies in the sequences of the pre-training data are critical to
the downstream performance. Our results also reveal that models achieve better
downstream performance when pre-trained on a dataset with a longer range of
implicit dependencies. Based on our analysis, we find that models pre-trained
with artificial datasets are prone to learn spurious correlation in downstream
tasks. Our work reveals that even if the LMs are not pre-trained on natural
language, they still gain transferability on certain human language downstream
tasks once the LMs learn to model the token dependencies in the sequences. This
result helps us understand the exceptional transferability of pre-trained LMs.
- Abstract(参考訳): 大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームタスクで直接訓練された言語モデルよりも、優れたダウンストリームパフォーマンスを実現することができる。
本研究では,セマンティクス以外の事前トレーニングデータに含まれる特定の特徴について検討し,学習したlmを下流タスクのスクラッチから学習したlmよりも優れていることを示す。
本研究では,人工的に構築したデータセットを事前学習データとして使用し,セマンティクスの効果を除外し,事前学習コーパスの持つ特性をさらに制御する。
glueベンチマークで事前トレーニングされたモデルを微調整することで、特定の特性を持つデータセットでトレーニングされたモデルから知識を転送することのメリットを学べます。
1) 前訓練と下流微調整の間のトークンのユニグラムまたはバイグラム分布の一致,2)シーケンス内のトークン間の明示的な依存関係の存在,3)シーケンス内のトークン間の暗黙的な依存関係の長さ,の3つの特徴を定義し,議論する。
実験により,事前学習データのシーケンスの明示的な依存関係が下流の性能に重要であることが示された。
また,モデルが,暗黙の依存範囲が長いデータセット上で事前トレーニングした場合のダウンストリームパフォーマンスも向上することを示す。
分析の結果,人工データセットで事前学習したモデルでは,下流タスクの素早い相関を学習しにくいことがわかった。
私たちの研究は、lmsが自然言語で事前トレーニングされていなくても、lsmがシーケンス内のトークン依存性のモデル化を学べば、特定の人間言語下流タスクで転送可能になります。
この結果は、事前学習したlmsの特別な転送可能性を理解するのに役立ちます。
関連論文リスト
- Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens [31.568675300434816]
言語モデルは、トレーニングデータセットで過去のトークンが与えられた次のトークンの可能性を最大化するためにしばしば訓練される。
推論時間の間は、前述したトークンを入力として次のトークンを予測することによって、テキストを逐次かつ自動回帰的に生成する。
本稿では、モデル自己生成に基づく2つの簡単なアプローチを提案し、この訓練時間と推論時間との相違に対処する。
論文 参考訳(メタデータ) (2024-10-18T17:48:27Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - Skill-it! A Data-Driven Skills Framework for Understanding and Training
Language Models [29.17711426767209]
本稿では,タスク間のダウンストリームモデルの性能向上につながるデータの選択方法について検討する。
簡単な仮説に基づく新しいフレームワークを開発する。人間が意図的な順序で相互依存するスキルを取得するのと同じように、言語モデルもトレーニングデータから一連のスキルを学ぶ際に自然な順序に従う。
論文 参考訳(メタデータ) (2023-07-26T18:01:49Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - How Well Self-Supervised Pre-Training Performs with Streaming Data? [73.5362286533602]
ストリーミング形式でデータが収集される現実のシナリオでは、ジョイントトレーニングスキームは通常、ストレージ重大で時間を要する。
ストリーミングデータでどのように連続的な自己監督プリトレーニングが実行されるかは不明です。
ストリーミングデータ内の分散シフトが軽度である場合,逐次自己教師付き学習は共同学習とほぼ同等の性能を示す。
論文 参考訳(メタデータ) (2021-04-25T06:56:48Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。