Fugu-MT 論文翻訳(概要): Explanatory Argument Extraction of Correct Answers in Resident Medical Exams

論文の概要: Explanatory Argument Extraction of Correct Answers in Resident Medical Exams

arxiv url: http://arxiv.org/abs/2312.00567v1
Date: Fri, 1 Dec 2023 13:22:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 14:45:06.872354
Title: Explanatory Argument Extraction of Correct Answers in Resident Medical Exams
Title（参考訳）: 入試における正答率の解説的弁論抽出
Authors: Iakes Goenaga, Aitziber Atutxa, Koldo Gojenola, Maite Oronoz, Rodrigo Agerri
Abstract要約: 本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
参考スコア（独自算出の注目度）: 5.399800035598185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Developing the required technology to assist medical experts in their everyday activities is currently a hot topic in the Artificial Intelligence research field. Thus, a number of large language models (LLMs) and automated benchmarks have recently been proposed with the aim of facilitating information extraction in Evidence-Based Medicine (EBM) using natural language as a tool for mediating in human-AI interaction. The most representative benchmarks are limited to either multiple-choice or long-form answers and are available only in English. In order to address these shortcomings, in this paper we present a new dataset which, unlike previous work: (i) includes not only explanatory arguments for the correct answer, but also arguments to reason why the incorrect answers are not correct; (ii) the explanations are written originally by medical doctors to answer questions from the Spanish Residency Medical Exams. Furthermore, this new benchmark allows us to setup a novel extractive task which consists of identifying the explanation of the correct answer written by medical doctors. An additional benefit of our setting is that we can leverage the extractive QA paradigm to automatically evaluate performance of LLMs without resorting to costly manual evaluation by medical experts. Comprehensive experimentation with language models for Spanish shows that sometimes multilingual models fare better than monolingual ones, even outperforming models which have been adapted to the medical domain. Furthermore, results across the monolingual models are mixed, with supposedly smaller and inferior models performing competitively. In any case, the obtained results show that our novel dataset and approach can be an effective technique to help medical practitioners in identifying relevant evidence-based explanations for medical questions.
Abstract（参考訳）: 医療専門家の日常活動を支援するために必要な技術の開発は、現在人工知能研究の分野でホットな話題となっている。このようにして、人間とAIの相互作用を仲介するツールとして自然言語を用いたEvidence-Based Medicine(EBM)における情報抽出を容易にするために、多数の大規模言語モデル(LLM)と自動ベンチマークが最近提案されている。最も代表的なベンチマークは、複数選択または長文の回答に限られており、英語でのみ利用可能である。これらの欠点に対処するため、本稿では、以前の研究と異なり、新しいデータセットを提案する。 (i) 正しい回答に対する説明的な議論だけでなく、不正確な回答が正しくない理由を判断するための議論を含む。 (ii)この説明は、元々はスペイン人医師がスペイン人居住医試験の質問に答えるために書いたものである。さらに,この新しいベンチマークでは,医師が書いた正答の説明を識別する新たな抽出作業の設定が可能となった。また,医療専門家による手作業による手作業による評価に頼らずに,抽出QAパラダイムを利用してLLMの性能を自動評価できる点も有効である。スペイン語の言語モデルに関する総合的な実験では、多言語モデルの方がモノリンガルモデルより優れており、医療領域に適応したモデルよりも優れていることが示されている。さらに、単言語モデル全体の結果が混合され、より小さいモデルと劣ったモデルが競争的に機能する。いずれにせよ,本研究の新たなデータセットとアプローチは,医療従事者が関連する根拠に基づく医学的問題の説明を識別する上で有効な手法であることを示す。

関連論文リスト

GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文参考訳（メタデータ） (2025-06-22T08:09:58Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Polish Medical Exams: A new dataset for cross-lingual medical knowledge transfer assessment [0.865489625605814]
本研究では,ポーランドの医療ライセンシングと専門化試験に基づく新しいベンチマークデータセットを提案する。ポーランド語と英語のパラレルコーパスのサブセットを含む24,000以上の試験質問を含んでいる。汎用・ドメイン特化・ポーランド特化モデルを含む最先端のLCMを評価し,その性能を人間医学生と比較した。
論文参考訳（メタデータ） (2024-11-30T19:02:34Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。 6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。 MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文参考訳（メタデータ） (2024-07-16T19:32:23Z)
MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-01-21T03:37:47Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文参考訳（メタデータ） (2023-01-25T11:21:12Z)
Towards more patient friendly clinical notes through language models and ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文参考訳（メタデータ） (2021-12-23T16:11:19Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)
Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。これらの質問は、現在のQAシステムにとって最も難しいものです。知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。市販の事前訓練モデルを完全に活用しようと努力しています。
論文参考訳（メタデータ） (2020-08-06T02:47:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。