論文の概要: Stack Over-Flowing with Results: The Case for Domain-Specific
Pre-Training Over One-Size-Fits-All Models
- arxiv url: http://arxiv.org/abs/2306.03268v1
- Date: Mon, 5 Jun 2023 21:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 18:11:19.294097
- Title: Stack Over-Flowing with Results: The Case for Domain-Specific
Pre-Training Over One-Size-Fits-All Models
- Title(参考訳): 結果を伴うスタックオーバーフロー: 1-size-fits-allモデル上でのドメイン固有事前トレーニングの場合
- Authors: Manisha Mukherjee, Vincent J. Hellendoorn
- Abstract要約: SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ187ドルと800ドルの予算でトレーニングしています。
私たちのモデルは、すべてのベースラインを一貫して上回るだけでなく、より小さなモデルは、強い結果を得るためには十分です。
- 参考スコア(独自算出の注目度): 6.586653735666809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained neural language models have brought immense progress to
both NLP and software engineering. Models in OpenAI's GPT series now dwarf
Google's BERT and Meta's RoBERTa, which previously set new benchmarks on a wide
range of NLP applications. These models are trained on massive corpora of
heterogeneous data from web crawls, which enables them to learn general
language patterns and semantic relationships. However, the largest models are
both expensive to train and deploy and are often closed-source, so we lack
access to their data and design decisions. We argue that this trend towards
large, general-purpose models should be complemented with single-purpose, more
modestly sized pre-trained models. In this work, we take StackOverflow (SO) as
a domain example in which large volumes of rich aligned code and text data is
available. We adopt standard practices for pre-training large language models,
including using a very large context size (2,048 tokens), batch size (0.5M
tokens) and training set (27B tokens), coupled with a powerful toolkit
(Megatron-LM), to train two models: SOBertBase, with 109M parameters, and
SOBertLarge with 762M parameters, at a budget of just $187 and $800 each. We
compare the performance of our models with both the previous SOTA model trained
on SO data exclusively as well general-purpose BERT models and OpenAI's ChatGPT
on four SO-specific downstream tasks - question quality prediction, closed
question prediction, named entity recognition and obsoletion prediction (a new
task we introduce). Not only do our models consistently outperform all
baselines, the smaller model is often sufficient for strong results. Both
models are released to the public. These results demonstrate that pre-training
both extensively and properly on in-domain data can yield a powerful and
affordable alternative to leveraging closed-source general-purpose models.
- Abstract(参考訳): トレーニング済みの大規模ニューラルネットワークモデルは、NLPとソフトウェアエンジニアリングの両方に大きな進歩をもたらした。
openaiのgptシリーズのモデルは、以前幅広いnlpアプリケーションで新しいベンチマークを設定したgoogleのbertとmetaのrobertaの2倍になった。
これらのモデルは、webクローラから大量のヘテロジニアスなデータに基づいてトレーニングされ、一般的な言語パターンとセマンティックな関係を学べる。
しかしながら、最大のモデルはトレーニングとデプロイに費用がかかり、クローズドソースであることが多いため、データや設計上の決定にはアクセスできません。
大規模で汎用的なモデルへのこの傾向は、より穏やかに訓練された単一目的のモデルで補完されるべきである。
この作業では、stackoverflow(so)を、リッチアライメントされたコードとテキストデータを大量に利用できるドメインの例としています。
非常に大きなコンテキストサイズ(2,048トークン)、バッチサイズ(0.5Mトークン)、トレーニングセット(27Bトークン)、強力なツールキット(Megatron-LM)と組み合わせて、109Mパラメータを持つSOBertBaseと762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ187ドルと800ドルという予算でトレーニングする。
soデータのみにトレーニングされた以前のsomaモデルと,汎用bertモデルとopenaiのchatgptの4つのダウンストリームタスク – 質問品質予測,クローズド質問予測,名前付きエンティティ認識,排他的予測(新たなタスク)です。
私たちのモデルはすべてのベースラインを一貫して上回るだけでなく、小さなモデルは強い結果を得るためには十分です。
どちらのモデルも一般公開されている。
これらの結果は、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための強力で安価な代替手段が得られることを示している。
関連論文リスト
- nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z) - A Comparison of LSTM and BERT for Small Corpus [0.0]
NLP分野の最近の進歩は、スクラッチから始めるのではなく、事前学習されたモデルを調整することによって、新しいタスクの最先端結果を達成するのに、トランスファーラーニングが役立つことを示している。
本稿では、学術と産業の科学者が頻繁に直面する現実的なシナリオに焦点を当てる。小さなデータセットがあれば、BERTのような大規模な事前学習モデルを使用して、単純なモデルよりも優れた結果を得ることができるか?
実験の結果,2方向LSTMモデルは小データセットのBERTモデルよりもはるかに高い結果が得られることが示され,これらの単純なモデルは事前学習したモデルよりもはるかに少ない時間で訓練されることがわかった。
論文 参考訳(メタデータ) (2020-09-11T14:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。