論文の概要: Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams
- arxiv url: http://arxiv.org/abs/2312.00567v1
- Date: Fri, 1 Dec 2023 13:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:45:06.872354
- Title: Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams
- Title(参考訳): 入試における正答率の解説的弁論抽出
- Authors: Iakes Goenaga, Aitziber Atutxa, Koldo Gojenola, Maite Oronoz, Rodrigo
Agerri
- Abstract要約: 本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
- 参考スコア(独自算出の注目度): 5.399800035598185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing the required technology to assist medical experts in their
everyday activities is currently a hot topic in the Artificial Intelligence
research field. Thus, a number of large language models (LLMs) and automated
benchmarks have recently been proposed with the aim of facilitating information
extraction in Evidence-Based Medicine (EBM) using natural language as a tool
for mediating in human-AI interaction. The most representative benchmarks are
limited to either multiple-choice or long-form answers and are available only
in English. In order to address these shortcomings, in this paper we present a
new dataset which, unlike previous work: (i) includes not only explanatory
arguments for the correct answer, but also arguments to reason why the
incorrect answers are not correct; (ii) the explanations are written originally
by medical doctors to answer questions from the Spanish Residency Medical
Exams. Furthermore, this new benchmark allows us to setup a novel extractive
task which consists of identifying the explanation of the correct answer
written by medical doctors. An additional benefit of our setting is that we can
leverage the extractive QA paradigm to automatically evaluate performance of
LLMs without resorting to costly manual evaluation by medical experts.
Comprehensive experimentation with language models for Spanish shows that
sometimes multilingual models fare better than monolingual ones, even
outperforming models which have been adapted to the medical domain.
Furthermore, results across the monolingual models are mixed, with supposedly
smaller and inferior models performing competitively. In any case, the obtained
results show that our novel dataset and approach can be an effective technique
to help medical practitioners in identifying relevant evidence-based
explanations for medical questions.
- Abstract(参考訳): 医療専門家の日常活動を支援するために必要な技術の開発は、現在人工知能研究の分野でホットな話題となっている。
このようにして、人間とAIの相互作用を仲介するツールとして自然言語を用いたEvidence-Based Medicine(EBM)における情報抽出を容易にするために、多数の大規模言語モデル(LLM)と自動ベンチマークが最近提案されている。
最も代表的なベンチマークは、複数選択または長文の回答に限られており、英語でのみ利用可能である。
これらの欠点に対処するため、本稿では、以前の研究と異なり、新しいデータセットを提案する。
(i) 正しい回答に対する説明的な議論だけでなく、不正確な回答が正しくない理由を判断するための議論を含む。
(ii)この説明は、元々はスペイン人医師がスペイン人居住医試験の質問に答えるために書いたものである。
さらに,この新しいベンチマークでは,医師が書いた正答の説明を識別する新たな抽出作業の設定が可能となった。
また,医療専門家による手作業による手作業による評価に頼らずに,抽出QAパラダイムを利用してLLMの性能を自動評価できる点も有効である。
スペイン語の言語モデルに関する総合的な実験では、多言語モデルの方がモノリンガルモデルより優れており、医療領域に適応したモデルよりも優れていることが示されている。
さらに、単言語モデル全体の結果が混合され、より小さいモデルと劣ったモデルが競争的に機能する。
いずれにせよ,本研究の新たなデータセットとアプローチは,医療従事者が関連する根拠に基づく医学的問題の説明を識別する上で有効な手法であることを示す。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。
6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。
MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文 参考訳(メタデータ) (2024-07-16T19:32:23Z) - MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。
本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。
この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-21T03:37:47Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。
我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。
また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。