Fugu-MT 論文翻訳(概要): Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

論文の概要: Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

arxiv url: http://arxiv.org/abs/2402.18060v4
Date: Tue, 25 Jun 2024 21:17:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 18:55:03.172270
Title: Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions
Title（参考訳）: 医学的質問への回答と説明に関する大規模言語モデルのベンチマーク
Authors: Hanjie Chen, Zhouxiang Fang, Yash Singla, Mark Dredze,
Abstract要約: JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。 JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
参考スコア（独自算出の注目度）: 19.436999992810797
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs have demonstrated impressive performance in answering medical questions, such as achieving passing scores on medical licensing examinations. However, medical board exam or general clinical questions do not capture the complexity of realistic clinical cases. Moreover, the lack of reference explanations means we cannot easily evaluate the reasoning of model decisions, a crucial component of supporting doctors in making complex medical decisions. To address these challenges, we construct two new datasets: JAMA Clinical Challenge and Medbullets. JAMA Clinical Challenge consists of questions based on challenging clinical cases, while Medbullets comprises simulated clinical questions. Both datasets are structured as multiple-choice question-answering tasks, accompanied by expert-written explanations. We evaluate seven LLMs on the two datasets using various prompts. Experiments demonstrate that our datasets are harder than previous benchmarks. Human and automatic evaluations of model-generated explanations provide insights into the promise and deficiency of LLMs for explainable medical QA.
Abstract（参考訳）: LLMは、医療免許試験の合格点数などの医学的問題に答える上で、顕著なパフォーマンスを示してきた。しかし、医療委員会試験や一般的な臨床質問は、現実的な臨床症例の複雑さを捉えていない。さらに、参照説明の欠如は、複雑な医学的意思決定を行う上で、医師を支援する重要な要素であるモデル決定の理由付けを容易に評価できないことを意味している。これらの課題に対処するため、JAMA Clinical ChallengeとMedbulletsという2つの新しいデータセットを構築した。 JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問からなる。どちらのデータセットも、専門家による説明を伴う複数の質問回答タスクとして構成されている。各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。実験では、私たちのデータセットは以前のベンチマークよりも難しいことが示されています。モデル生成説明の人的および自動評価は、説明可能な医学的QAのためのLCMの約束と不足についての洞察を提供する。

関連論文リスト

Beyond MedQA: Towards Real-world Clinical Decision Making in the Era of LLMs [37.6690828097719]
大型言語モデル (LLM) は臨床応用の可能性を示唆している。多くの医学データセットは、現実の臨床的意思決定を過小評価する簡易的な質問回答 (QA) に依存している。臨床背景と臨床質問の2つの側面に沿って臨床意思決定タスクを特徴付ける統一パラダイムを提案する。
論文参考訳（メタデータ） (2025-10-22T20:06:10Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Moving Beyond Medical Exam Questions: A Clinician-Annotated Dataset of Real-World Tasks and Ambiguity in Mental Healthcare [0.0545520830707066]
精神医療における5つの重要な意思決定領域にまたがる専門家による注釈付きデータセットを提案する。このデータセットは、微妙な臨床推論と、メンタルヘルス実践者が遭遇する日々のあいまいさを捉えるように設計されている。
論文参考訳（メタデータ） (2025-02-22T03:10:16Z)
Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Give me Some Hard Questions: Synthetic Data Generation for Clinical QA [13.436187152293515]
本稿では,ゼロショット環境での大規模言語モデル(LLM)を用いた臨床QAデータの生成について検討する。ナイーブなプロンプトが臨床シナリオの複雑さを反映しない簡単な質問をもたらすことがよくあります。 2つの臨床QAデータセットを用いた実験により,本手法はより難解な質問を発生し,ベースライン上での微調整性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-12-05T19:35:41Z)
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文参考訳（メタデータ） (2024-12-02T15:25:02Z)
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis [44.76975131560712]
胸部X線診断 (GEMeX) のための大規模, 接地可能, 説明可能な医療用VQAベンチマークを導入する。マルチモーダルな説明可能性メカニズムは、質問対ごとに詳細な視覚的およびテキスト的説明を提供する。 4つの異なる質問タイプ、オープンエンド、クローズドエンド、シングルチョイス、マルチチョイスは、多様な臨床ニーズを反映している。
論文参考訳（メタデータ） (2024-11-25T07:36:46Z)
RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions [3.182594503527438]
本稿では,人間とLLMが生み出す現実的な臨床質問のデータセットであるRealMedQAを紹介する。 LLMは「理想的な」QAペアを生成するのに、よりコスト効率が高いことを示す。
論文参考訳（メタデータ） (2024-08-16T09:32:43Z)
MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文参考訳（メタデータ） (2024-06-09T16:33:28Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Medical Question Summarization with Entity-driven Contrastive Learning [12.008269098530386]
本稿では,エンティティ駆動型コントラスト学習(ECL)を用いた新しい医療質問要約フレームワークを提案する。 ECLは、しばしば質問される質問(FAQ)に医療機関を採用し、硬い負のサンプルを生成する効果的なメカニズムを考案している。 iCliniqデータセットの33%の重複率など、いくつかのMQAデータセットが深刻なデータ漏洩問題に悩まされていることが分かりました。
論文参考訳（メタデータ） (2023-04-15T00:19:03Z)
VBridge: Connecting the Dots Between Features, Explanations, and Data for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文参考訳（メタデータ） (2021-08-04T17:34:13Z)
Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文参考訳（メタデータ） (2021-08-02T10:42:52Z)
Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。これらの質問は、現在のQAシステムにとって最も難しいものです。知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。市販の事前訓練モデルを完全に活用しようと努力しています。
論文参考訳（メタデータ） (2020-08-06T02:47:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。