論文の概要: Knowledge Inheritance for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2105.13880v1
- Date: Fri, 28 May 2021 14:43:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:56:22.537915
- Title: Knowledge Inheritance for Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルの知識継承
- Authors: Yujia Qin, Yankai Lin, Jing Yi, Jiajie Zhang, Xu Han, Zhengyan Zhang,
Yusheng Su, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou
- Abstract要約: 我々は「知識継承(KI)」という新しい事前学習フレームワークを導入する。
KIは、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に訓練する。
KIは生涯学習と知識伝達を十分に支援できることを示す。
- 参考スコア(独自算出の注目度): 57.51305807391381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent explorations of large-scale pre-trained language models (PLMs) such as
GPT-3 have revealed the power of PLMs with huge amounts of parameters, setting
off a wave of training ever-larger PLMs. However, training a large-scale PLM
requires tremendous amounts of computational resources, which is time-consuming
and expensive. In addition, existing large-scale PLMs are mainly trained from
scratch individually, ignoring the availability of many existing well-trained
PLMs. To this end, we explore the question that how can previously trained PLMs
benefit training larger PLMs in future. Specifically, we introduce a novel
pre-training framework named "knowledge inheritance" (KI), which combines both
self-learning and teacher-guided learning to efficiently train larger PLMs.
Sufficient experimental results demonstrate the feasibility of our KI
framework. We also conduct empirical analyses to explore the effects of teacher
PLMs' pre-training settings, including model architecture, pre-training data,
etc. Finally, we show that KI can well support lifelong learning and knowledge
transfer.
- Abstract(参考訳): GPT-3のような大規模事前学習言語モデル(PLM)の最近の研究により、膨大なパラメータを持つPLMのパワーが明らかになった。
しかし、大規模PLMのトレーニングには膨大な量の計算資源が必要であり、時間と費用がかかる。
加えて、既存の大規模PLMは、既存のよく訓練されたPLMの可用性を無視して、主にスクラッチから個別に訓練されている。
この目的のために,従来トレーニングされていたPLMが今後,より大きなPLMのトレーニングにどう役立つのか,という課題を考察する。
具体的には、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に学習する「知識継承」という新しい事前学習フレームワークを導入する。
KIフレームワークの実現可能性を示す十分な実験結果を得た。
また,モデルアーキテクチャや事前学習データなど,教員PLMの事前学習環境の効果について,実証分析を行った。
最後に,KIは生涯学習と知識伝達を十分に支援できることを示す。
関連論文リスト
- Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Large Language Model as a Policy Teacher for Training Reinforcement
Learning Agents [17.430124346342826]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z) - Knowledge Editing for Large Language Models: A Survey [51.01368551235289]
大規模言語モデル(LLM)の大きな欠点の1つは、事前学習に要する計算コストである。
知識に基づくモデル編集(KME)が注目を集めており、特定の知識を組み込むためにLLMを正確に修正することを目的としている。
論文 参考訳(メタデータ) (2023-10-24T22:18:13Z) - Rethinking Learning Rate Tuning in the Era of Large Language Models [11.87985768634266]
大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。
ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。
既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
論文 参考訳(メタデータ) (2023-09-16T03:37:00Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Differentially Private Decoding in Large Language Models [14.221692239892207]
本稿では,復号段階で既に訓練済みのモデルに適用可能な,単純で分かり易く,計算的に軽量な摂動機構を提案する。
我々の摂動メカニズムはモデルに依存しず、どんな大規模言語モデルとも併用することができる。
論文 参考訳(メタデータ) (2022-05-26T20:50:58Z) - ElitePLM: An Empirical Study on General Language Ability Evaluation of
Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。
実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文 参考訳(メタデータ) (2022-05-03T14:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。