Fugu-MT 論文翻訳(概要): A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks

論文の概要: A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks

arxiv url: http://arxiv.org/abs/2310.04270v1
Date: Fri, 6 Oct 2023 14:16:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-09 16:09:25.413881
Title: A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks
Title（参考訳）: ベンチマークバイオメディカルテキスト処理課題における大規模言語モデルの総合的評価
Authors: Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang
Abstract要約: 本稿では,バイオメディカル・タスクのベンチマークにおいて,LLM(Large Language Models)の性能を評価することを目的とする。我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。
参考スコア（独自算出の注目度）: 2.5027382653219155
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, Large Language Models (LLM) have demonstrated impressive capability to solve a wide range of tasks. However, despite their success across various tasks, no prior work has investigated their capability in the biomedical domain yet. To this end, this paper aims to evaluate the performance of LLMs on benchmark biomedical tasks. For this purpose, we conduct a comprehensive evaluation of 4 popular LLMs in 6 diverse biomedical tasks across 26 datasets. To the best of our knowledge, this is the first work that conducts an extensive evaluation and comparison of various LLMs in the biomedical domain. Interestingly, we find based on our evaluation that in biomedical datasets that have smaller training sets, zero-shot LLMs even outperform the current state-of-the-art fine-tuned biomedical models. This suggests that pretraining on large text corpora makes LLMs quite specialized even in the biomedical domain. We also find that not a single LLM can outperform other LLMs in all tasks, with the performance of different LLMs may vary depending on the task. While their performance is still quite poor in comparison to the biomedical models that were fine-tuned on large training sets, our findings demonstrate that LLMs have the potential to be a valuable tool for various biomedical tasks that lack large annotated data.
Abstract（参考訳）: 近年、大規模言語モデル(llm)は、幅広いタスクを解決する素晴らしい能力を示している。しかし, 様々な課題にまたがって成功を収めたにもかかわらず, 生物医学分野での能力についてはまだ研究されていない。本研究の目的は,バイオメディカル・タスクのベンチマーク上でのLCMの性能を評価することである。そこで本研究では,26データセットにまたがる6種類の生物医学的タスクにおいて,4つのLLMを包括的に評価する。我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。興味深いことに、より少ないトレーニングセットを持つバイオメディカルデータセットでは、ゼロショットLLMは現在の最先端の微調整バイオメディカルモデルよりも優れています。このことは、大きなテキストコーパスで事前学習を行うことによって、LLMは生物医学領域においてもかなり専門化されていることを示唆している。また、1つのLLMが全てのタスクで他のLLMを上回り、異なるLLMのパフォーマンスがタスクによって異なる可能性があることもわかった。大規模なトレーニングセットで微調整されたバイオメディカルモデルと比較すると,その性能はいまだに劣っているが,本研究の結果から,LLMは大量の注釈データを持たない様々なバイオメディカルタスクに有用なツールである可能性が示唆された。

関連論文リスト

Evaluating the Effectiveness of Cost-Efficient Large Language Models in Benchmark Biomedical Tasks [2.290986589177405]
本稿では,コスト効率の高い大規模言語モデル (LLM) の包括的評価について述べる。バイオメディカルテキストの分類と生成,質問応答,マルチモーダル画像処理などのタスクに対して,オープンソースかつクローズドなLCMについて検討した。実験結果から, 特定の生体医学的応用に適したモデルを選択する上で, 有用な知見が得られた。
論文参考訳（メタデータ） (2025-07-18T16:13:35Z)
Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge [7.064104563689608]
大規模言語モデル (LLM) は, 生物医学的関係抽出において顕著な性能を示した。本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
論文参考訳（メタデータ） (2025-06-01T02:01:52Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
JMedBench: A Benchmark for Evaluating Japanese Biomedical Large Language Models [29.92429306565324]
本稿では,日本の生物医学大言語モデル(LLM)を評価するための新しいベンチマークを提案する。実験の結果,以下のことが示唆された。日本人の生物医学的知識をより深く理解したLLMは、日本の生物医学的タスクにおいて、より良いパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-20T08:25:16Z)
A Survey for Large Language Models in Biomedicine [31.719451674137844]
このレビューは、PubMed、Web of Science、arXivなどのデータベースから得られた484の出版物の分析に基づいている。我々は、診断支援、薬物発見、パーソナライズドメディカル医療を含む幅広いバイオメディカル・タスクにおいて、ゼロショット学習におけるLLMの能力について検討する。データプライバシの懸念、限定されたモデル解釈可能性、データセットの品質の問題、倫理など、LLMがバイオメディシック領域で直面する課題について論じる。
論文参考訳（メタデータ） (2024-08-29T12:39:16Z)
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data [3.469567586411153]
大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
論文参考訳（メタデータ） (2024-08-25T13:36:22Z)
An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文参考訳（メタデータ） (2024-02-21T11:27:31Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse Biomedical Tasks [19.091278630792615]
既存のバイオメディカル大規模言語モデル(LLMs)は、単言語でのバイオメディカル質問応答や会話タスクのパフォーマンス向上に重点を置いている。多様なバイオメディカルタスクのためのバイリンガル微調整LDMであるTaiyiについて紹介する。
論文参考訳（メタデータ） (2023-11-20T08:51:30Z)
A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文参考訳（メタデータ） (2023-11-09T02:55:58Z)
Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。本稿では,医学におけるLSMの応用と意義について概説する。
論文参考訳（メタデータ） (2023-11-03T13:51:36Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering (Published in Findings of EMNLP 2024) [48.17095875619711]
LLMs Augmented with Medical Textbooks (LLM-AMT)を提案する。 LLM-AMTは、プラグイン・アンド・プレイモジュールを使用して、権威ある医学教科書をLLMのフレームワークに統合する。検索コーパスとしての医学教科書は,医学領域におけるウィキペディアよりも効果的な知識データベースであることが確認された。
論文参考訳（メタデータ） (2023-09-05T13:39:38Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。 LLM出力の不足情報や幻覚といった問題を見つけます。
論文参考訳（メタデータ） (2023-05-10T13:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。