論文の概要: GPT-3 Models are Poor Few-Shot Learners in the Biomedical Domain
- arxiv url: http://arxiv.org/abs/2109.02555v1
- Date: Mon, 6 Sep 2021 15:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 17:03:52.470955
- Title: GPT-3 Models are Poor Few-Shot Learners in the Biomedical Domain
- Title(参考訳): gpt-3モデルは生体医学領域における少数ショット学習者である
- Authors: Milad Moradi, Kathrin Blagec, Florian Haberl, Matthias Samwald
- Abstract要約: 本稿では,GPT-3とBioBERTの2つの強力なトランスフォーマー言語モデルの性能について,生物医学的NLPタスクにおける数ショット設定で検討する。
GPT-3は、オープンドメインのNLPタスクにおける数発の知識伝達において、最先端の成果をすでに達成していたが、BioBERTほど効果的に実行できなかった。
- 参考スコア(独自算出の注目度): 5.479164650793012
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural language models have set new breakthroughs in many tasks of
Natural Language Processing (NLP). Recent work has shown that deep transformer
language models (pretrained on large amounts of texts) can achieve high levels
of task-specific few-shot performance comparable to state-of-the-art models.
However, the ability of these large language models in few-shot transfer
learning has not yet been explored in the biomedical domain. We investigated
the performance of two powerful transformer language models, i.e. GPT-3 and
BioBERT, in few-shot settings on various biomedical NLP tasks. The experimental
results showed that, to a great extent, both the models underperform a language
model fine-tuned on the full training data. Although GPT-3 had already achieved
near state-of-the-art results in few-shot knowledge transfer on open-domain NLP
tasks, it could not perform as effectively as BioBERT, which is orders of
magnitude smaller than GPT-3. Regarding that BioBERT was already pretrained on
large biomedical text corpora, our study suggests that language models may
largely benefit from in-domain pretraining in task-specific few-shot learning.
However, in-domain pretraining seems not to be sufficient; novel pretraining
and few-shot learning strategies are required in the biomedical NLP domain.
- Abstract(参考訳): ディープラーニングモデルは、自然言語処理(NLP)の多くのタスクにおいて、新たなブレークスルーを生み出している。
近年の研究では、深層トランスフォーマー言語モデル(大量のテキストで事前学習されている)が最先端のモデルに匹敵するタスク固有の少数ショット性能を達成できることが示されている。
しかし、これらの大規模言語モデルのわずかな転送学習における能力は、まだ生物医学領域では研究されていない。
2つの強力なトランスフォーマー言語モデルの性能について検討した。
GPT-3とBioBERTは、様々なバイオメディカルNLPタスクを数ショットで設定する。
実験結果から, 両モデルとも, 完全な学習データに基づいて, 言語モデルに微調整を施した結果が得られた。
GPT-3は、オープンドメインのNLPタスクにおける数発の知識伝達で既に最先端に近い結果を得たが、GPT-3より桁違いに小さいBioBERTほど効果的に動作できなかった。
BioBERTがすでに大規模なバイオメディカルテキストコーパスで事前訓練されていたことに関して,本研究は,タスク固有の少数ショット学習において,言語モデルがドメイン内事前学習の恩恵が大きいことを示唆している。
しかし, バイオメディカルNLPドメインでは, 新規プレトレーニングや少数ショット学習が必要であるため, ドメイン内プレトレーニングは不十分である。
関連論文リスト
- Elsevier Arena: Human Evaluation of Chemistry/Biology/Health Foundational Large Language Models [0.038696580294804606]
エルゼビアで行われた生物医学領域(健康・生物学・化学・薬学)に焦点を当てた人体評価実験について述べる。
比較的小さな (135B トークン) データセットでトレーニングされたデコーダのみの基礎変換器は OpenAI の GPT-3.5-turbo と Meta の基本 7B パラメータ Llama 2 モデルと比較される。
結果は、一般的にIRRスコアが低かったとしても、GPT-3.5-turboが好まれており、会話能力を持つモデルが好まれており、非常に大きなデータセットでトレーニングされていることを示している。
論文 参考訳(メタデータ) (2024-09-09T10:30:00Z) - How Important is Domain Specificity in Language Models and Instruction
Finetuning for Biomedical Relation Extraction? [1.7555695340815782]
一般ドメインモデルは典型的にはバイオメディカルドメインモデルよりも優れていた。
バイオメディカル・インストラクション・ファインタニングは、パフォーマンスを一般的なインストラクション・ファインタニングと同等に改善した。
本研究は,一般のLMの大規模バイオメディカル・インスツルメンテーションに焦点を合わせることで,より有益である可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-21T01:57:58Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - An Empirical Study of Multi-Task Learning on BERT for Biomedical Text
Mining [17.10823632511911]
複数のデコーダを用いたマルチタスク学習モデルについて,生物医学的および臨床的自然言語処理タスクの多様性について検討した。
実験結果から,MTL微調整モデルが最先端トランスモデルより優れていることが示された。
論文 参考訳(メタデータ) (2020-05-06T13:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。