論文の概要: Benchmarking Large Language Models on Answering and Explaining
Challenging Medical Questions
- arxiv url: http://arxiv.org/abs/2402.18060v3
- Date: Wed, 13 Mar 2024 16:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:27:40.757354
- Title: Benchmarking Large Language Models on Answering and Explaining
Challenging Medical Questions
- Title(参考訳): 回答と説明に基づく大規模言語モデルのベンチマーク
医療問題への取り組み
- Authors: Hanjie Chen, Zhouxiang Fang, Yash Singla, Mark Dredze
- Abstract要約: JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。
JAMA 臨床チャレンジは、挑戦的な臨床ケースに基づく質問から成り、Medbullets は USMLE Step 2&3 スタイルの臨床質問から成り立っている。
各種のプロンプトを用いて2つのデータセット上で4つのLSMを評価する。
- 参考スコア(独自算出の注目度): 21.23352614758691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have demonstrated impressive performance in answering medical questions,
such as passing scores on medical licensing examinations. However, medical
board exam questions or general clinical questions do not capture the
complexity of realistic clinical cases. Moreover, the lack of reference
explanations means we cannot easily evaluate the reasoning of model decisions,
a crucial component of supporting doctors in making complex medical decisions.
To address these challenges, we construct two new datasets: JAMA Clinical
Challenge and Medbullets. JAMA Clinical Challenge consists of questions based
on challenging clinical cases, while Medbullets comprises USMLE Step 2&3 style
clinical questions. Both datasets are structured as multiple-choice
question-answering tasks, where each question is accompanied by an
expert-written explanation. We evaluate four LLMs on the two datasets using
various prompts. Experiments demonstrate that our datasets are harder than
previous benchmarks. The inconsistency between automatic and human evaluations
of model-generated explanations highlights the need to develop new metrics to
support future research on explainable medical QA.
- Abstract(参考訳): LLMは、医療免許試験の合格点などの医学的問題に答える上で、顕著なパフォーマンスを示してきた。
しかし、医療委員会試験の質問や一般的な臨床の質問は、現実的な臨床の複雑さを捉えていない。
さらに、参照説明の欠如は、複雑な医学的意思決定を行う上で、医師を支援する重要な要素であるモデル決定の理由付けを容易に評価できないことを意味している。
これらの課題に対処するため、JAMA Clinical ChallengeとMedbulletsという2つの新しいデータセットを構築した。
JAMA 臨床チャレンジは、挑戦的な臨床ケースに基づく質問から成り、Medbullets は USMLE Step 2&3 スタイルの臨床質問から成り立っている。
どちらのデータセットも複数の質問回答タスクとして構成されており、各質問には専門家による説明が添えられている。
各種のプロンプトを用いて2つのデータセット上で4つのLSMを評価する。
実験では、私たちのデータセットは以前のベンチマークよりも難しいことが示されています。
モデル生成説明の自動評価と人的評価の矛盾は、説明可能な医療QAに関する将来の研究を支援するために、新しいメトリクスを開発する必要性を浮き彫りにする。
関連論文リスト
- EHRNoteQA: A Patient-Specific Question Answering Benchmark for
Evaluating Large Language Models in Clinical Settings [9.77441122987873]
本研究では,臨床環境におけるLarge Language Models (LLMs) の評価に適した,患者固有の質問応答ベンチマークであるEHRNoteQAを紹介する。
MIMIC-IV Electronic Health Record (EHR)に基づいて、3人の医療専門家からなるチームが、962のユニークな質問からなるデータセットをキュレートした。
このデータセットは、PhyloNetクレデンシャルアクセスの下で一般公開され、この重要な分野におけるさらなる研究が促進される。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - RJUA-QA: A Comprehensive QA Dataset for Urology [20.688839472350505]
RJUA-QAは、質問応答(QA)と臨床証拠の推論のための新しい医療データセットである。
このデータセットには2,132種類の質問-文脈-回答ペアが含まれており、約25,000の診断記録と臨床ケースに対応している。
論文 参考訳(メタデータ) (2023-12-15T13:40:25Z) - Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams [5.399800035598185]
本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
論文 参考訳(メタデータ) (2023-12-01T13:22:35Z) - Medical Question Summarization with Entity-driven Contrastive Learning [12.008269098530386]
本稿では,エンティティ駆動型コントラスト学習(ECL)を用いた新しい医療質問要約フレームワークを提案する。
ECLは、しばしば質問される質問(FAQ)に医療機関を採用し、硬い負のサンプルを生成する効果的なメカニズムを考案している。
iCliniqデータセットの33%の重複率など、いくつかのMQAデータセットが深刻なデータ漏洩問題に悩まされていることが分かりました。
論文 参考訳(メタデータ) (2023-04-15T00:19:03Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z) - A Benchmark for Automatic Medical Consultation System: Frameworks, Tasks
and Datasets [70.32630628211803]
本稿では,医師と患者との対話理解とタスク指向インタラクションという,医療相談の自動化を支援する2つの枠組みを提案する。
マルチレベルな微粒なアノテーションを付加した新しい大規模医療対話データセットが導入された。
本稿では,各タスクに対するベンチマーク結果のセットを報告し,データセットのユーザビリティを示し,今後の研究のベースラインを設定する。
論文 参考訳(メタデータ) (2022-04-19T16:43:21Z) - VBridge: Connecting the Dots Between Features, Explanations, and Data
for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。
我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。
症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文 参考訳(メタデータ) (2021-08-04T17:34:13Z) - Q-Pain: A Question Answering Dataset to Measure Social Bias in Pain
Management [5.044336341666555]
痛み管理の文脈におけるQAのバイアスを評価するためのデータセットであるQ-Painを紹介する。
本稿では, 治療決定の際に生じる潜在的なバイアスを測定するための, 実験設計のサンプルを含む, 厳密な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T21:55:28Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。