論文の概要: MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark
for Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2310.14088v3
- Date: Tue, 14 Nov 2023 21:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 19:21:38.009020
- Title: MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark
for Language Model Evaluation
- Title(参考訳): MedEval: 言語モデル評価のためのマルチレベル、マルチタスク、マルチドメイン医療ベンチマーク
- Authors: Zexue He, Yu Wang, An Yan, Yao Liu, Eric Y. Chang, Amilcare Gentili,
Julian McAuley, Chun-Nan Hsu
- Abstract要約: MedEvalは、医療のための言語モデルの開発を促進するために、マルチレベル、マルチタスク、マルチドメインの医療ベンチマークである。
22,779の文と21,228のレポートを収集し、専門家のアノテーションを複数のレベルで提供し、データの詳細な使用可能性を提供します。
- 参考スコア(独自算出の注目度): 22.986061896641083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curated datasets for healthcare are often limited due to the need of human
annotations from experts. In this paper, we present MedEval, a multi-level,
multi-task, and multi-domain medical benchmark to facilitate the development of
language models for healthcare. MedEval is comprehensive and consists of data
from several healthcare systems and spans 35 human body regions from 8
examination modalities. With 22,779 collected sentences and 21,228 reports, we
provide expert annotations at multiple levels, offering a granular potential
usage of the data and supporting a wide range of tasks. Moreover, we
systematically evaluated 10 generic and domain-specific language models under
zero-shot and finetuning settings, from domain-adapted baselines in healthcare
to general-purposed state-of-the-art large language models (e.g., ChatGPT). Our
evaluations reveal varying effectiveness of the two categories of language
models across different tasks, from which we notice the importance of
instruction tuning for few-shot usage of large language models. Our
investigation paves the way toward benchmarking language models for healthcare
and provides valuable insights into the strengths and limitations of adopting
large language models in medical domains, informing their practical
applications and future advancements.
- Abstract(参考訳): 医療のためのデータセットのキュレーションは、専門家による人間のアノテーションを必要とするため、しばしば制限される。
本稿では,医療用言語モデルの開発を容易にするために,マルチレベル,マルチタスク,マルチドメイン医療ベンチマークであるMedEvalを提案する。
MedEvalは包括的で、いくつかの医療システムからのデータからなり、8つの検査モダリティから35の人体領域にまたがる。
22,779の文と21,228のレポートを収集し、複数のレベルで専門家のアノテーションを提供し、データの詳細な使用可能性を提供し、幅広いタスクをサポートする。
さらに,医療におけるドメイン適応ベースラインから,汎用的な最先端言語モデル(ChatGPTなど)まで,ゼロショットおよび微調整設定下で10の汎用言語モデルとドメイン固有言語モデルを体系的に評価した。
評価の結果,異なるタスクにまたがる2つのカテゴリーの言語モデルの有効性が明らかとなった。
本研究は,医療分野における大規模言語モデル導入の強みと限界に関する貴重な知見を提供し,その実践的応用と今後の進歩を示すものである。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Towards Holistic Disease Risk Prediction using Small Language Models [2.137491464843808]
様々な病気のリスクを同時に予測することを目的とした,小言語モデルと複数のデータソースを接続するフレームワークを提案する。
本実験では,12種類のタスクをマルチタスク学習装置に組み込んだ。
論文 参考訳(メタデータ) (2024-08-13T15:01:33Z) - Evaluation of Language Models in the Medical Context Under Resource-Constrained Settings [10.39989311209284]
医療分野における言語モデルに関する総合的な調査を行った。
医療用テキスト分類と条件付きテキスト生成のためのサブセットの評価を行った。
その結果、タスク全体での顕著なパフォーマンスが明らかとなり、特定のモデルが医療知識を含む可能性について評価された。
論文 参考訳(メタデータ) (2024-06-24T12:52:02Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - DrBenchmark: A Large Language Understanding Evaluation Benchmark for
French Biomedical Domain [8.246368441549967]
我々はDrBenchmarkと呼ばれるフランスの生物医学言語理解ベンチマークを公開している。
名前付き認識、音声タグ付け、質問回答、意味的テキスト類似性、分類を含む20のタスクを含む。
一般およびバイオメディカル特化データに基づいて8つの最先端の事前訓練マスク付き言語モデル (MLM) を評価し, それらの言語間能力を評価する。
論文 参考訳(メタデータ) (2024-02-20T23:54:02Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Localising In-Domain Adaptation of Transformer-Based Biomedical Language
Models [0.987336898133886]
我々は、英語以外の言語で生物医学的言語モデルを導出するための2つのアプローチを提案する。
1つは、英語リソースのニューラルネットワーク翻訳に基づくもので、品質よりも量を好む。
もう一つは、イタリア語で書かれた高品位で細いスコープのコーパスに基づいており、量よりも質を優先している。
論文 参考訳(メタデータ) (2022-12-20T16:59:56Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。