論文の概要: A systematic evaluation of large language models for biomedical natural language processing: benchmarks, baselines, and recommendations
- arxiv url: http://arxiv.org/abs/2305.16326v4
- Date: Mon, 30 Sep 2024 03:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:59.803467
- Title: A systematic evaluation of large language models for biomedical natural language processing: benchmarks, baselines, and recommendations
- Title(参考訳): バイオメディカル自然言語処理のための大規模言語モデルの体系的評価--ベンチマーク,ベースライン,レコメンデーション
- Authors: Qingyu Chen, Yan Hu, Xueqing Peng, Qianqian Xie, Qiao Jin, Aidan Gilson, Maxwell B. Singer, Xuguang Ai, Po-Ting Lai, Zhizheng Wang, Vipina Kuttichi Keloth, Kalpana Raja, Jiming Huang, Huan He, Fongci Lin, Jingcheng Du, Rui Zhang, W. Jim Zheng, Ron A. Adelman, Zhiyong Lu, Hua Xu,
- Abstract要約: そこで本研究では,12個のBioNLPデータセットにまたがる4つの代表言語モデル(LLM)を体系的に評価する。
評価は、ゼロショット、静的少数ショット、動的Kアネレスト、微調整の4つの設定で行われる。
これらのモデルと最先端(SOTA)アプローチを比較し、細い(ドメイン固有の)BERTモデルやBARTモデルと比較する。
- 参考スコア(独自算出の注目度): 22.668383945059762
- License:
- Abstract: The biomedical literature is rapidly expanding, posing a significant challenge for manual curation and knowledge discovery. Biomedical Natural Language Processing (BioNLP) has emerged as a powerful solution, enabling the automated extraction of information and knowledge from this extensive literature. Recent attention has been directed towards Large Language Models (LLMs) due to their impressive performance. However, there remains a critical gap in understanding the effectiveness of LLMs in BioNLP tasks and their broader implications for method development and downstream users. Currently, there is a lack of baseline performance data, benchmarks, and practical recommendations for using LLMs in the biomedical domain. To address this gap, we present a systematic evaluation of four representative LLMs: GPT-3.5 and GPT-4 (closed-source), LLaMA 2 (open-sourced), and PMC LLaMA (domain-specific) across 12 BioNLP datasets covering six applications (named entity recognition, relation extraction, multi-label document classification, question answering, text summarization, and text simplification). The evaluation is conducted under four settings: zero-shot, static few-shot, dynamic K-nearest few-shot, and fine-tuning. We compare these models against state-of-the-art (SOTA) approaches that fine-tune (domain-specific) BERT or BART models, which are well-established methods in BioNLP tasks. The evaluation covers both quantitative and qualitative evaluations, where the latter involves manually reviewing collectively hundreds of thousands of LLM outputs for inconsistencies, missing information, and hallucinations in extractive and classification tasks. The qualitative review also examines accuracy, 1 completeness, and readability in text summarization tasks. Additionally, a cost analysis of closed-source GPT models is conducted.
- Abstract(参考訳): 生物医学の文献は急速に拡大しており、手作業によるキュレーションと知識発見にとって大きな課題となっている。
バイオメディカル自然言語処理(BioNLP)は、この広範な文献から情報と知識の自動抽出を可能にする強力なソリューションとして登場した。
最近の注目は、その顕著なパフォーマンスのために、Large Language Models (LLMs) に向けられている。
しかし,BioNLPタスクにおけるLLMの有効性と,メソッド開発やダウンストリームユーザに対するその広範な影響を理解する上で,依然として重要なギャップが残っている。
現在、バイオメディカル領域でLLMを使用するためのベースラインのパフォーマンスデータ、ベンチマーク、実用的なレコメンデーションが不足している。
GPT-3.5 と GPT-4 (オープンソース), LLaMA 2 (オープンソース), PMC LLaMA (ドメイン固有) の6つのアプリケーション(エンティティ認識,関係抽出,複数ラベル文書分類,質問応答,テキスト要約,テキスト簡略化)を対象とする12のBioNLPデータセットを対象とした。
評価は、ゼロショット、静的少数ショット、動的Kアネレスト、微調整の4つの設定で行われる。
我々はこれらのモデルと、BioNLPタスクにおいて確立された手法である細管(ドメイン固有)BERTまたはBARTモデルに対するSOTA(State-of-the-art)アプローチを比較した。
この評価は、量的および質的な評価の両方をカバーし、後者は、不整合、情報不足、および抽出および分類タスクにおける幻覚に関する数十万のLCM出力を手作業でレビューする。
定性的なレビューでは、テキスト要約タスクの正確性、完全性、可読性についても検討する。
さらに, クローズドソースGPTモデルのコスト解析を行った。
関連論文リスト
- BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。
textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。
textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文 参考訳(メタデータ) (2024-05-01T12:01:39Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。
メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。
長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - Investigating Large Language Models and Control Mechanisms to Improve Text Readability of Biomedical Abstracts [16.05119302860606]
本稿では,生物医学的抽象的単純化作業における最先端の大規模言語モデル(LLM)の能力について検討する。
適用方法はドメインファインチューニングとプロンプトベースラーニング(PBL)である。
BLEU,ROUGE,SARI,BERTscoreなど,さまざまな自動評価指標を用い,人的評価を行った。
論文 参考訳(メタデータ) (2023-09-22T22:47:32Z) - Distilling Large Language Models for Biomedical Knowledge Extraction: A
Case Study on Adverse Drug Events [17.73671383380315]
本研究では,大規模言語モデル(LLM)が生物医学的知識キュレーションのスケールアップにどのように役立つかを検討する。
コスト,効率,ホワイトボックスモデルアクセスといった付加的なアドバンテージを伴って,アウトオブボックスのLCMよりも大幅に向上できることが判明した。
論文 参考訳(メタデータ) (2023-07-12T20:08:48Z) - BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。