論文の概要: ScholarBERT: Bigger is Not Always Better
- arxiv url: http://arxiv.org/abs/2205.11342v1
- Date: Mon, 23 May 2022 14:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 04:25:45.280638
- Title: ScholarBERT: Bigger is Not Always Better
- Title(参考訳): ScholarBERT:Biggerは必ずしも良いものではない
- Authors: Zhi Hong, Aswathy Ajith, Gregory Pauloski, Eamon Duede, Carl Malamud,
Roger Magoulas, Kyle Chard, Ian Foster
- Abstract要約: BERTやRoBERTaといった一般的なコーパスでトレーニングされたトランスフォーマーベースのマスク付き言語モデルは、さまざまな下流タスクで素晴らしいパフォーマンスを示している。
本稿では,14の変圧器モデルを用いた11の科学的課題に適用し,下流の性能が様々な次元の変化にどのように影響するかを評価する。
- 参考スコア(独自算出の注目度): 0.6784745592354214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based masked language models trained on general corpora, such as
BERT and RoBERTa, have shown impressive performance on various downstream
tasks. Increasingly, researchers are "finetuning" these models to improve
performance on domain-specific tasks. Here, we report a broad study in which we
applied 14 transformer-based models to 11 scientific tasks in order to evaluate
how downstream performance is affected by changes along various dimensions
(e.g., training data, model size, pretraining time, finetuning length). In this
process, we created the largest and most diverse scientific language model to
date, ScholarBERT, by training a 770M-parameter BERT model on an 221B token
scientific literature dataset spanning many disciplines. Counterintuitively,
our evaluation of the 14 BERT-based models (seven versions of ScholarBERT, five
science-specific large language models from the literature, BERT-Base, and
BERT-Large) reveals little difference in performance across the 11
science-focused tasks, despite major differences in model size and training
data. We argue that our results establish an upper bound for the performance
achievable with BERT-based architectures on tasks from the scientific domain.
- Abstract(参考訳): BERTやRoBERTaといった一般的なコーパスでトレーニングされたトランスフォーマーベースのマスク付き言語モデルは、さまざまな下流タスクで素晴らしいパフォーマンスを示している。
研究者たちは、これらのモデルを"微調整"して、ドメイン固有のタスクのパフォーマンスを改善している。
そこで本研究では,11の科学タスクに14のトランスフォーマーモデルを適用し,様々な次元の変化(トレーニングデータ,モデルサイズ,事前トレーニング時間,微調整長さなど)が下流性能に与える影響を評価する。
この過程で我々は,これまでで最大かつ最も多様な科学的言語モデルであるScholarBERTを作成し,多くの分野にまたがる221Bトークン科学文献データセットを用いて770MパラメータBERTモデルをトレーニングした。
ScholarBERTの7バージョン、文学、BERT-Base、BERT-Largeの5つの科学特化言語モデルによる14のBERTモデルの評価は、モデルサイズとトレーニングデータに大きな違いがあるにもかかわらず、11の科学特化タスク間で性能の差がほとんどないことを示している。
我々は,この結果が,理科領域のタスクにおいてBERTベースのアーキテクチャで達成可能な性能の上限を確立することを主張する。
関連論文リスト
- Uni-Mol2: Exploring Molecular Pretraining Model at Scale [27.172011090947823]
原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。
我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
論文 参考訳(メタデータ) (2024-06-21T08:28:54Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Multi-granulariy Time-based Transformer for Knowledge Tracing [9.788039182463768]
過去のテストスコアを含む学生の過去のデータを活用して、各学生にパーソナライズされたモデルを作成します。
次に、これらのモデルを使用して、将来のパフォーマンスを所定のテストで予測します。
論文 参考訳(メタデータ) (2023-04-11T14:46:38Z) - Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文 参考訳(メタデータ) (2023-03-26T14:49:37Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。