論文の概要: Pretrained Language Model Embryology: The Birth of ALBERT
- arxiv url: http://arxiv.org/abs/2010.02480v2
- Date: Thu, 29 Oct 2020 00:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:38:26.358012
- Title: Pretrained Language Model Embryology: The Birth of ALBERT
- Title(参考訳): 事前訓練された言語モデル胚学:アルバートの誕生
- Authors: Cheng-Han Chiang, Sung-Feng Huang and Hung-yi Lee
- Abstract要約: ランダムなパラメータの集合からトチエント言語モデルへの発達過程について検討する。
その結果、ALBERTは、事前学習中に異なる学習速度で、音声の異なる部分(POS)のトークンを再構成し、予測することを学習していることがわかった。
これらの結果は、事前訓練されたモデルの知識が事前訓練の間に異なることを示唆し、事前訓練のステップを持つことは、必ずしもより包括的な知識を持つモデルを提供するとは限らないことを示唆している。
- 参考スコア(独自算出の注目度): 68.5801642674541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While behaviors of pretrained language models (LMs) have been thoroughly
examined, what happened during pretraining is rarely studied. We thus
investigate the developmental process from a set of randomly initialized
parameters to a totipotent language model, which we refer to as the embryology
of a pretrained language model. Our results show that ALBERT learns to
reconstruct and predict tokens of different parts of speech (POS) in different
learning speeds during pretraining. We also find that linguistic knowledge and
world knowledge do not generally improve as pretraining proceeds, nor do
downstream tasks' performance. These findings suggest that knowledge of a
pretrained model varies during pretraining, and having more pretrain steps does
not necessarily provide a model with more comprehensive knowledge. We will
provide source codes and pretrained models to reproduce our results at
https://github.com/d223302/albert-embryology.
- Abstract(参考訳): 事前訓練言語モデル(LM)の行動は十分に検討されているが、事前訓練中に起こったことはめったに研究されていない。
そこで我々は,ランダムに初期化されたパラメータの集合から,事前学習された言語モデルの胚学と呼ばれる強弱言語モデルへの発達過程について検討する。
以上の結果から,albertは,学習速度の異なる音声(pos)のトークンを,事前学習中に再構成し,予測する。
また,言語知識や世界知識は,事前学習やダウンストリームタスクのパフォーマンス向上により,一般的には改善されないことがわかった。
これらの結果から,事前学習時の事前学習モデルの知識は様々であり,事前学習段階の増大は必ずしもモデルに包括的知識を与えるものではないことが示唆された。
結果をhttps://github.com/d223302/albert-embryologyで再現するために、ソースコードと事前トレーニングされたモデルを提供します。
関連論文リスト
- Can training neural language models on a curriculum with developmentally
plausible data improve alignment with human reading behavior? [0.2745342790938508]
本稿では,より発達的に妥当なデータを用いたモデル学習により,経験的行動とモデル予測行動の相違が最小化できる範囲について検討する。
我々は,BabyLMの「限定小」データセットを用いて教師言語モデルを訓練し,これらの教師モデルからの文レベル推定を用いてカリキュラムの作成を行った。
モデルが学習データから言語知識を習得し易いという仮の証拠が得られた。
論文 参考訳(メタデータ) (2023-11-30T18:03:58Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Continual Pre-Training Mitigates Forgetting in Language and Vision [43.80547864450793]
絶え間なく事前訓練されたモデルは破滅的な忘れ物に対して堅牢であることを示す。
本稿では,自己指導型事前学習が,教師付きプロトコルよりも事前知識の保持に有効であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2022-05-19T07:27:12Z) - Does Pre-training Induce Systematic Inference? How Masked Language
Models Acquire Commonsense Knowledge [91.15301779076187]
プレトレーニング中のBERTモデルのミニバッチに言語知識を導入し、モデルがサポート対象の推論にどの程度うまく一般化するかを評価する。
一般化は事前学習の過程では改善せず, 帰納的, 体系的推論ではなく, 表面的, 共起的パターンからコモンセンス知識が獲得されることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T03:13:04Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - A Survey of Knowledge Enhanced Pre-trained Models [28.160826399552462]
知識注入を伴う事前学習言語モデルを知識強化事前学習言語モデル(KEPLM)と呼ぶ。
これらのモデルは深い理解と論理的推論を示し、解釈可能性を導入する。
論文 参考訳(メタデータ) (2021-10-01T08:51:58Z) - HerBERT: Efficiently Pretrained Transformer-based Language Model for
Polish [4.473327661758546]
本論文では,ポーランド語に焦点をあてた最初のアブレーション研究について述べる。
多言語モデルから単言語モデルへの知識伝達の事前学習手順を設計・評価します。
提案された手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTが訓練される。
論文 参考訳(メタデータ) (2021-05-04T20:16:17Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。