論文の概要: Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams
- arxiv url: http://arxiv.org/abs/2312.00567v1
- Date: Fri, 1 Dec 2023 13:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:45:06.872354
- Title: Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams
- Title(参考訳): 入試における正答率の解説的弁論抽出
- Authors: Iakes Goenaga, Aitziber Atutxa, Koldo Gojenola, Maite Oronoz, Rodrigo
Agerri
- Abstract要約: 本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
- 参考スコア(独自算出の注目度): 5.399800035598185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing the required technology to assist medical experts in their
everyday activities is currently a hot topic in the Artificial Intelligence
research field. Thus, a number of large language models (LLMs) and automated
benchmarks have recently been proposed with the aim of facilitating information
extraction in Evidence-Based Medicine (EBM) using natural language as a tool
for mediating in human-AI interaction. The most representative benchmarks are
limited to either multiple-choice or long-form answers and are available only
in English. In order to address these shortcomings, in this paper we present a
new dataset which, unlike previous work: (i) includes not only explanatory
arguments for the correct answer, but also arguments to reason why the
incorrect answers are not correct; (ii) the explanations are written originally
by medical doctors to answer questions from the Spanish Residency Medical
Exams. Furthermore, this new benchmark allows us to setup a novel extractive
task which consists of identifying the explanation of the correct answer
written by medical doctors. An additional benefit of our setting is that we can
leverage the extractive QA paradigm to automatically evaluate performance of
LLMs without resorting to costly manual evaluation by medical experts.
Comprehensive experimentation with language models for Spanish shows that
sometimes multilingual models fare better than monolingual ones, even
outperforming models which have been adapted to the medical domain.
Furthermore, results across the monolingual models are mixed, with supposedly
smaller and inferior models performing competitively. In any case, the obtained
results show that our novel dataset and approach can be an effective technique
to help medical practitioners in identifying relevant evidence-based
explanations for medical questions.
- Abstract(参考訳): 医療専門家の日常活動を支援するために必要な技術の開発は、現在人工知能研究の分野でホットな話題となっている。
このようにして、人間とAIの相互作用を仲介するツールとして自然言語を用いたEvidence-Based Medicine(EBM)における情報抽出を容易にするために、多数の大規模言語モデル(LLM)と自動ベンチマークが最近提案されている。
最も代表的なベンチマークは、複数選択または長文の回答に限られており、英語でのみ利用可能である。
これらの欠点に対処するため、本稿では、以前の研究と異なり、新しいデータセットを提案する。
(i) 正しい回答に対する説明的な議論だけでなく、不正確な回答が正しくない理由を判断するための議論を含む。
(ii)この説明は、元々はスペイン人医師がスペイン人居住医試験の質問に答えるために書いたものである。
さらに,この新しいベンチマークでは,医師が書いた正答の説明を識別する新たな抽出作業の設定が可能となった。
また,医療専門家による手作業による手作業による評価に頼らずに,抽出QAパラダイムを利用してLLMの性能を自動評価できる点も有効である。
スペイン語の言語モデルに関する総合的な実験では、多言語モデルの方がモノリンガルモデルより優れており、医療領域に適応したモデルよりも優れていることが示されている。
さらに、単言語モデル全体の結果が混合され、より小さいモデルと劣ったモデルが競争的に機能する。
いずれにせよ,本研究の新たなデータセットとアプローチは,医療従事者が関連する根拠に基づく医学的問題の説明を識別する上で有効な手法であることを示す。
関連論文リスト
- Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。
本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。
この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-21T03:37:47Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models [42.360431316298204]
我々は、VQAのオープン化に重点を置いており、近年の言語モデルの発展によって、VQAを生成タスクと見なされている。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-03-10T15:17:22Z) - Cross-lingual Argument Mining in the Medical Domain [5.9647924003148365]
このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。