論文の概要: MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2507.20917v1
- Date: Mon, 28 Jul 2025 15:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.179002
- Title: MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation
- Title(参考訳): MediQAl: 知識と推論評価のためのデータセットを問うフランスの医学的質問
- Authors: Adrien Bazoge,
- Abstract要約: MediQAlには、41の被験者にわたるフランスの診察から得られた32,603の質問が含まれている。
このデータセットには3つのタスクが含まれている: (i) 独特な回答を伴う複数回答質問、 (ii) 複数回答を持つ複数回答質問、 (iii) 短回答による開放質問。
- 参考スコア(独自算出の注目度): 0.7770029179741429
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This work introduces MediQAl, a French medical question answering dataset designed to evaluate the capabilities of language models in factual medical recall and reasoning over real-world clinical scenarios. MediQAl contains 32,603 questions sourced from French medical examinations across 41 medical subjects. The dataset includes three tasks: (i) Multiple-Choice Question with Unique answer, (ii) Multiple-Choice Question with Multiple answer, and (iii) Open-Ended Question with Short-Answer. Each question is labeled as Understanding or Reasoning, enabling a detailed analysis of models' cognitive capabilities. We validate the MediQAl dataset through extensive evaluation with 14 large language models, including recent reasoning-augmented models, and observe a significant performance gap between factual recall and reasoning tasks. Our evaluation provides a comprehensive benchmark for assessing language models' performance on French medical question answering, addressing a crucial gap in multilingual resources for the medical domain.
- Abstract(参考訳): この研究は、実際の臨床シナリオに対する実際の医療リコールと推論における言語モデルの能力を評価するために設計された、フランスの医療質問応答データセットであるMedQAlを紹介する。
MediQAlには、41の被験者にわたるフランスの診察から得られた32,603の質問が含まれている。
データセットには3つのタスクが含まれている。
一 独特な解答を伴う複数問答
(二)複数回答による複数質問、及び
三 短答答書による公開質問
各質問は理解または推論とラベル付けされ、モデルの認知能力の詳細な分析を可能にする。
最近の推論強化モデルを含む14の大規模言語モデルによる広範囲な評価を通じて、MedQAlデータセットを検証し、ファクトリコールと推論タスク間の顕著なパフォーマンスギャップを観察する。
本評価は,医学領域における多言語資源の欠如に対処するため,フランス語の質問応答における言語モデルの性能を評価するための総合的ベンチマークを提供する。
関連論文リスト
- GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。
JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。
各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文 参考訳(メタデータ) (2024-02-28T05:44:41Z) - Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams [5.399800035598185]
本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
論文 参考訳(メタデータ) (2023-12-01T13:22:35Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - FrenchMedMCQA: A French Multiple-Choice Question Answering Dataset for
Medical domain [4.989459243399296]
本稿では,フレンチMedMCQAについて紹介する。フレンチMedMCQAは,医学領域向けにフランス語で公開されているMultiple-Choice Question Answering(MCQA)データセットである。
薬局におけるフランスの医学専門学位の実際の試験から取られた3,105の質問で構成されている。
論文 参考訳(メタデータ) (2023-04-09T16:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。