論文の概要: The Diminishing Returns of Masked Language Models to Science
- arxiv url: http://arxiv.org/abs/2205.11342v2
- Date: Wed, 3 May 2023 15:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 19:01:09.318812
- Title: The Diminishing Returns of Masked Language Models to Science
- Title(参考訳): マスク言語モデルの科学への回帰の低下
- Authors: Zhi Hong, Aswathy Ajith, Gregory Pauloski, Eamon Duede, Kyle Chard,
Ian Foster
- Abstract要約: トレーニングデータ,モデルサイズ,事前学習,微調整時間が下流の12の科学的課題に与える影響を評価する。
モデルのサイズ、トレーニングデータ、計算時間の増加が、必ずしも大幅な改善につながるとは限らないことが分かっています。
- 参考スコア(独自算出の注目度): 0.7549732580284559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based masked language models such as BERT, trained on general
corpora, have shown impressive performance on downstream tasks. It has also
been demonstrated that the downstream task performance of such models can be
improved by pretraining larger models for longer on more data. In this work, we
empirically evaluate the extent to which these results extend to tasks in
science. We use 14 domain-specific transformer-based models (including
ScholarBERT, a new 770M-parameter science-focused masked language model
pretrained on up to 225B tokens) to evaluate the impact of training data, model
size, pretraining and finetuning time on 12 downstream scientific tasks.
Interestingly, we find that increasing model sizes, training data, or compute
time does not always lead to significant improvements (i.e., >1% F1), if at
all, in scientific information extraction tasks and offered possible
explanations for the surprising performance differences.
- Abstract(参考訳): 一般的なコーパスでトレーニングされたBERTのようなトランスフォーマーベースのマスク付き言語モデルは、下流タスクで素晴らしいパフォーマンスを示している。
また、より長いデータでより大きなモデルを事前訓練することで、そのようなモデルのダウンストリームタスク性能を改善することも実証されている。
本研究は,これらの結果が科学のタスクに及ぼす範囲を実証的に評価する。
我々は、トレーニングデータ、モデルサイズ、事前学習、12下流の科学的タスクに対する微調整時間の影響を評価するために、14のドメイン固有のトランスフォーマーベースモデル(ScholarBERTを含む 770M の科学パラメータにフォーカスした新しいマスク付き言語モデルである。
興味深いことに、モデルのサイズ、トレーニングデータ、または計算時間の増加が、科学的な情報抽出タスクにおいて、必ずしも大きな改善(つまり、1% F1)をもたらすとは限らないことが分かり、驚くべき性能の違いを説明できた。
関連論文リスト
- Uni-Mol2: Exploring Molecular Pretraining Model at Scale [27.172011090947823]
原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。
我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
論文 参考訳(メタデータ) (2024-06-21T08:28:54Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Multi-granulariy Time-based Transformer for Knowledge Tracing [9.788039182463768]
過去のテストスコアを含む学生の過去のデータを活用して、各学生にパーソナライズされたモデルを作成します。
次に、これらのモデルを使用して、将来のパフォーマンスを所定のテストで予測します。
論文 参考訳(メタデータ) (2023-04-11T14:46:38Z) - Exploring the Impact of Instruction Data Scaling on Large Language
Models: An Empirical Study on Real-World Use Cases [17.431381376675432]
本稿では,命令データのスケールの異なる命令データに対して,命令チューニングに基づく大規模言語モデルの性能について検討する。
ベースモデルとしてBloomz-7B1-mtを用いると、命令データの量を増やすだけで、オープン・エンド・ジェネレーションのようなタスクが継続的に改善されることが示される。
本稿では,高品質なトレーニングデータ,スケールベースモデル,ハードタスクに特化したトレーニング手法を効果的に選択する,といった将来的な研究方向を提案する。
論文 参考訳(メタデータ) (2023-03-26T14:49:37Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。