論文の概要: A Comprehensive Evaluation of Large Language Models on Benchmark
Biomedical Text Processing Tasks
- arxiv url: http://arxiv.org/abs/2310.04270v2
- Date: Tue, 10 Oct 2023 03:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:39:11.705209
- Title: A Comprehensive Evaluation of Large Language Models on Benchmark
Biomedical Text Processing Tasks
- Title(参考訳): ベンチマークバイオメディカルテキスト処理課題における大規模言語モデルの総合的評価
- Authors: Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang
- Abstract要約: 本稿では,バイオメディカル・タスクのベンチマークにおいて,LLM(Large Language Models)の性能を評価することを目的とする。
我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。
- 参考スコア(独自算出の注目度): 2.5027382653219155
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, Large Language Models (LLM) have demonstrated impressive capability
to solve a wide range of tasks. However, despite their success across various
tasks, no prior work has investigated their capability in the biomedical domain
yet. To this end, this paper aims to evaluate the performance of LLMs on
benchmark biomedical tasks. For this purpose, we conduct a comprehensive
evaluation of 4 popular LLMs in 6 diverse biomedical tasks across 26 datasets.
To the best of our knowledge, this is the first work that conducts an extensive
evaluation and comparison of various LLMs in the biomedical domain.
Interestingly, we find based on our evaluation that in biomedical datasets that
have smaller training sets, zero-shot LLMs even outperform the current
state-of-the-art fine-tuned biomedical models. This suggests that pretraining
on large text corpora makes LLMs quite specialized even in the biomedical
domain. We also find that not a single LLM can outperform other LLMs in all
tasks, with the performance of different LLMs may vary depending on the task.
While their performance is still quite poor in comparison to the biomedical
models that were fine-tuned on large training sets, our findings demonstrate
that LLMs have the potential to be a valuable tool for various biomedical tasks
that lack large annotated data.
- Abstract(参考訳): 近年、大規模言語モデル(llm)は、幅広いタスクを解決する素晴らしい能力を示している。
しかし, 様々な課題にまたがって成功を収めたにもかかわらず, 生物医学分野での能力についてはまだ研究されていない。
本研究の目的は,バイオメディカル・タスクのベンチマーク上でのLCMの性能を評価することである。
そこで本研究では,26データセットにまたがる6種類の生物医学的タスクにおいて,4つのLLMを包括的に評価する。
我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。
興味深いことに、より少ないトレーニングセットを持つバイオメディカルデータセットでは、ゼロショットLLMは現在の最先端の微調整バイオメディカルモデルよりも優れています。
このことは、大きなテキストコーパスで事前学習を行うことによって、LLMは生物医学領域においてもかなり専門化されていることを示唆している。
また、1つのLLMが全てのタスクで他のLLMを上回り、異なるLLMのパフォーマンスがタスクによって異なる可能性があることもわかった。
大規模なトレーニングセットで微調整されたバイオメディカルモデルと比較すると,その性能はいまだに劣っているが,本研究の結果から,LLMは大量の注釈データを持たない様々なバイオメディカルタスクに有用なツールである可能性が示唆された。
関連論文リスト
- JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models [29.92429306565324]
本稿では,日本の生物医学大言語モデル(LLM)を評価するための新しいベンチマークを提案する。
実験の結果,以下のことが示唆された。
日本人の生物医学的知識をより深く理解したLLMは、日本の生物医学的タスクにおいて、より良いパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-20T08:25:16Z) - A Survey for Large Language Models in Biomedicine [31.719451674137844]
このレビューは、PubMed、Web of Science、arXivなどのデータベースから得られた484の出版物の分析に基づいている。
我々は、診断支援、薬物発見、パーソナライズドメディカル医療を含む幅広いバイオメディカル・タスクにおいて、ゼロショット学習におけるLLMの能力について検討する。
データプライバシの懸念、限定されたモデル解釈可能性、データセットの品質の問題、倫理など、LLMがバイオメディシック領域で直面する課題について論じる。
論文 参考訳(メタデータ) (2024-08-29T12:39:16Z) - Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。
本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文 参考訳(メタデータ) (2024-08-25T13:36:22Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse
Biomedical Tasks [19.091278630792615]
既存のバイオメディカル大規模言語モデル(LLMs)は、単言語でのバイオメディカル質問応答や会話タスクのパフォーマンス向上に重点を置いている。
多様なバイオメディカルタスクのためのバイリンガル微調整LDMであるTaiyiについて紹介する。
論文 参考訳(メタデータ) (2023-11-20T08:51:30Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。
LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。
検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文 参考訳(メタデータ) (2023-09-05T13:39:38Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。