Fugu-MT 論文翻訳(概要): Knowledge Inheritance for Pre-trained Language Models

論文の概要: Knowledge Inheritance for Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2105.13880v1
Date: Fri, 28 May 2021 14:43:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-31 13:56:22.537915
Title: Knowledge Inheritance for Pre-trained Language Models
Title（参考訳）: 事前学習型言語モデルの知識継承
Authors: Yujia Qin, Yankai Lin, Jing Yi, Jiajie Zhang, Xu Han, Zhengyan Zhang, Yusheng Su, Zhiyuan Liu, Peng Li, Maosong Sun, Jie Zhou
Abstract要約: 我々は「知識継承(KI)」という新しい事前学習フレームワークを導入する。 KIは、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に訓練する。 KIは生涯学習と知識伝達を十分に支援できることを示す。
参考スコア（独自算出の注目度）: 57.51305807391381
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent explorations of large-scale pre-trained language models (PLMs) such as GPT-3 have revealed the power of PLMs with huge amounts of parameters, setting off a wave of training ever-larger PLMs. However, training a large-scale PLM requires tremendous amounts of computational resources, which is time-consuming and expensive. In addition, existing large-scale PLMs are mainly trained from scratch individually, ignoring the availability of many existing well-trained PLMs. To this end, we explore the question that how can previously trained PLMs benefit training larger PLMs in future. Specifically, we introduce a novel pre-training framework named "knowledge inheritance" (KI), which combines both self-learning and teacher-guided learning to efficiently train larger PLMs. Sufficient experimental results demonstrate the feasibility of our KI framework. We also conduct empirical analyses to explore the effects of teacher PLMs' pre-training settings, including model architecture, pre-training data, etc. Finally, we show that KI can well support lifelong learning and knowledge transfer.
Abstract（参考訳）: GPT-3のような大規模事前学習言語モデル(PLM)の最近の研究により、膨大なパラメータを持つPLMのパワーが明らかになった。しかし、大規模PLMのトレーニングには膨大な量の計算資源が必要であり、時間と費用がかかる。加えて、既存の大規模PLMは、既存のよく訓練されたPLMの可用性を無視して、主にスクラッチから個別に訓練されている。この目的のために,従来トレーニングされていたPLMが今後,より大きなPLMのトレーニングにどう役立つのか,という課題を考察する。具体的には、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に学習する「知識継承」という新しい事前学習フレームワークを導入する。 KIフレームワークの実現可能性を示す十分な実験結果を得た。また,モデルアーキテクチャや事前学習データなど,教員PLMの事前学習環境の効果について,実証分析を行った。最後に,KIは生涯学習と知識伝達を十分に支援できることを示す。

関連論文リスト

MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳（メタデータ） (2025-05-26T17:58:50Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs [22.177654792824896]
コスト効率とアクセシビリティのために,小型言語モデル(3Bから7Bパラメータ)に焦点を当てた。オープンソースで事前トレーニングされた4つのモデルに対して,さまざまなトレーニング構成と戦略について検討する。 i) 学習率の低いバッチサイズと組み合わせることで,MMLUやMTBench,Open LLM Leaderboardといったベンチマーク上でのモデルパフォーマンスが向上します。
論文参考訳（メタデータ） (2024-12-17T21:16:59Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
MiniPLM: Knowledge Distillation for Pre-Training Language Models [109.83741809808483]
MiniPLMは、学生言語モデルを事前学習するためのKDフレームワークである。効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LMに対するKDを訓練時間のコストを伴わずに行えるようにした。柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
論文参考訳（メタデータ） (2024-10-22T17:40:32Z)
LUK: Empowering Log Understanding with Expert Knowledge from Large Language Models [32.65636568742875]
小言語モデル (PLM) と大言語モデル (LLM) は、ログ分析における現在の主流のアプローチとなっている。本稿では,LLMから専門知識を自動取得するLUKと呼ばれる新しい知識向上フレームワークを導入し,これらの知識を用いてログ解析を行うため,より小さなPLMを向上する。 LUKは、異なるログ分析タスクに関する最先端の結果を達成し、LLMからのエキスパート知識をより効果的に利用してログを理解するための広範な実験を行った。
論文参考訳（メタデータ） (2024-09-03T13:58:34Z)
How Do Large Language Models Acquire Factual Knowledge During Pretraining? [36.59608982935844]
本研究では,大規模言語モデル(LLM)が事前学習中に事実知識を取得する方法を検討する。発見は、事前訓練中の事実知識獲得のダイナミクスに関するいくつかの重要な洞察を明らかにしている。
論文参考訳（メタデータ） (2024-06-17T17:54:40Z)
The Future of Large Language Model Pre-training is Federated [15.237418036900582]
我々は,LLM事前学習のための新しいトレーニングパラダイムの調査と開発を可能にする,Photonと呼ばれるスケーラブルなデプロイメントシステムを提案する。数十億のパラメータを持つLCMを事前学習するために、プライベートデータソースと計算資源とのコラボレーションに関心のある組織がPhotonを利用できることを示す。さらに,モデルサイズによるフェデレーショントレーニング尺度の有効性を示すとともに,限られた資源を用いて数十億規模のフェデレーションLLMをトレーニングするためのアプローチを提案する。
論文参考訳（メタデータ） (2024-05-17T15:27:52Z)
Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。本稿では,LLMの連続学習に関する最近の研究について述べる。
論文参考訳（メタデータ） (2024-02-02T12:34:09Z)
Knowledge Editing for Large Language Models: A Survey [51.01368551235289]
大規模言語モデル(LLM)の大きな欠点の1つは、事前学習に要する計算コストである。知識に基づくモデル編集(KME)が注目を集めており、特定の知識を組み込むためにLLMを正確に修正することを目的としている。
論文参考訳（メタデータ） (2023-10-24T22:18:13Z)
Rethinking Learning Rate Tuning in the Era of Large Language Models [11.87985768634266]
大規模言語モデル(LLM)は、人間のような優れた予測性能を達成するために、近年のディープラーニングの成功を表している。ファインチューニングを活用して、様々な現実世界のアプリケーションにLLMを適用するための主要な戦略となっている。既存の学習率ポリシは、主に従来のディープニューラルネットワーク(DNN)のトレーニング用に設計されている。
論文参考訳（メタデータ） (2023-09-16T03:37:00Z)
ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models [78.08792285698853]
本稿では,事前学習型言語モデル(ElitePLM)の汎用言語能力評価に関する大規模実証的研究について述べる。実験の結果,(1)訓練対象の異なるPLMは異なる能力試験に適しており,(2)下流タスクの微調整PLMはデータサイズや分布に敏感であり,(3)PLMは類似タスク間の転送性に優れていた。
論文参考訳（メタデータ） (2022-05-03T14:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。