論文の概要: Efficient Training of Language Models to Fill in the Middle
- arxiv url: http://arxiv.org/abs/2207.14255v1
- Date: Thu, 28 Jul 2022 17:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:21:09.736029
- Title: Efficient Training of Language Models to Fill in the Middle
- Title(参考訳): 中間層における言語モデルの効率的な訓練
- Authors: Mohammad Bavarian, Heewoo Jun, Nikolas Tezak, John Schulman, Christine
McLeavey, Jerry Tworek, Mark Chen
- Abstract要約: 自動回帰言語モデルは、データセットに直接的な変換を適用した後、テキストを埋めることを学ぶことができる。
FIMモデルのトレーニングには、デフォルト設定の強い設定とベストプラクティスを規定するために、これらのアブリケーションを使用します。
私たちはAPIのベストプラクティスでトレーニングされた最高のインフィルモデルをリリースし、将来の研究を支援するためにインフィルベンチマークをリリースしました。
- 参考スコア(独自算出の注目度): 17.118891860985123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that autoregressive language models can learn to infill text after we
apply a straightforward transformation to the dataset, which simply moves a
span of text from the middle of a document to its end. While this data
augmentation has garnered much interest in recent years, we provide extensive
evidence that training models with a large fraction of data transformed in this
way does not harm the original left-to-right generative capability, as measured
by perplexity and sampling evaluations across a wide range of scales. Given the
usefulness, simplicity, and efficiency of training models to fill-in-the-middle
(FIM), we suggest that future autoregressive language models be trained with
FIM by default. To this end, we run a series of ablations on key
hyperparameters, such as the data transformation frequency, the structure of
the transformation, and the method of selecting the infill span. We use these
ablations to prescribe strong default settings and best practices to train FIM
models. We have released our best infilling model trained with best practices
in our API, and release our infilling benchmarks to aid future research.
- Abstract(参考訳): 自動回帰型言語モデルは、文書の中央から最後にテキストのスパンを移動させるだけで、データセットに簡単な変換を適用することで、テキストをインフィルする学習ができることを示します。
このデータ拡張は近年大きな関心を集めているものの、この方法で変換された大量のデータを持つトレーニングモデルが、様々なスケールでのパープレキシティやサンプリング評価によって測定されるように、元の左から右への生成能力を損なうことはないという広範な証拠を提供する。
FIM(Fi-in-the-middle)におけるトレーニングモデルの有用性,簡易性,効率性を考えると,将来の自己回帰言語モデルはデフォルトでFIMでトレーニングされることが示唆される。
この目的のために,データ変換周波数,変換構造,インフィルスパンの選択など,キーハイパーパラメータ上で一連のアブレーションを実行する。
これらのアブレーションは、強力なデフォルト設定とベストプラクティスを規定し、fimモデルのトレーニングに使用します。
私たちは、apiのベストプラクティスをトレーニングした最高のインフィルメントモデルをリリースし、将来の研究を支援するためにインフィルメントベンチマークをリリースしました。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Extensive Evaluation of Transformer-based Architectures for Adverse Drug
Events Extraction [6.78974856327994]
逆イベント(ADE)抽出は、デジタル製薬における中核的なタスクの1つである。
我々は、非公式テキストを用いたADE抽出のための19のトランスフォーマーモデルを評価する。
分析の最後には、実験データから導出可能なテイクホームメッセージのリストを同定する。
論文 参考訳(メタデータ) (2023-06-08T15:25:24Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - On the importance of pre-training data volume for compact language
models [0.7691755449724638]
本研究では,事前学習データ量がコンパクト言語モデルに与える影響について検討する。
我々は,100MBのテキストで良好な性能のモデルが得られることを観察した。
論文 参考訳(メタデータ) (2020-10-08T07:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。