論文の概要: MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian
- arxiv url: http://arxiv.org/abs/2508.16390v2
- Date: Mon, 25 Aug 2025 11:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.876582
- Title: MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian
- Title(参考訳): MedQaro: ルーマニアの医療質問回答のための大規模ベンチマーク
- Authors: Ana-Cristina Rogoz, Radu Tudor Ionescu, Alexandra-Valentina Anghel, Ionut-Lucian Antone-Iordache, Simona Coniac, Andreea Iuliana Ionescu,
- Abstract要約: ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
- 参考スコア(独自算出の注目度): 50.767415194856135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Question answering (QA) is an actively studied topic, being a core natural language processing (NLP) task that needs to be addressed before achieving Artificial General Intelligence (AGI). However, the lack of QA datasets in specific domains and languages hinders the development of robust AI models able to generalize across various domains and languages. To this end, we introduce MedQARo, the first large-scale medical QA benchmark in Romanian, alongside a comprehensive evaluation of state-of-the-art large language models (LLMs). We construct a high-quality and large-scale dataset comprising 102,646 QA pairs related to cancer patients. The questions regard medical case summaries of 1,011 patients, requiring either keyword extraction or reasoning to be answered correctly. MedQARo is the result of a time-consuming manual annotation process carried out by seven physicians specialized in oncology or radiotherapy, who spent a total of about 2,100 work hours to generate the QA pairs. We experiment with four LLMs from distinct families of models on MedQARo. Each model is employed in two scenarios, namely one based on zero-shot prompting and one based on supervised fine-tuning. Our results show that fine-tuned models significantly outperform their zero-shot counterparts, clearly indicating that pretrained models fail to generalize on MedQARo. Our findings demonstrate the importance of both domain-specific and language-specific fine-tuning for reliable clinical QA in Romanian. We publicly release our dataset and code at https://github.com/ana-rogoz/MedQARo.
- Abstract(参考訳): 質問応答(QA)は、人工知能(AGI)を達成する前に対処する必要がある、中核的な自然言語処理(NLP)タスクである、活発に研究されているトピックである。
しかし、特定のドメインや言語におけるQAデータセットの欠如は、さまざまなドメインや言語をまたいで一般化できる堅牢なAIモデルの開発を妨げる。
この目的のために,ルーマニア初の大規模医療QAベンチマークであるMedQARoを導入するとともに,最先端の大規模言語モデル(LLM)の包括的な評価を行う。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
患者1011名を対象に,キーワード抽出と推論のどちらを正しく答えるかを問う。
MedQARoは、腫瘍学や放射線療法を専門とする7人の医師が、QAペアを生成するのに合計2100時間を費やした、時間を要する手動のアノテーションプロセスの結果である。
我々は,MedQaro 上で異なるモデル群から4つの LLM を実験した。
各モデルは、ゼロショットプロンプトに基づくものと、教師付き微調整に基づくものとの2つのシナリオで使用される。
以上の結果から, 微調整モデルではゼロショットモデルよりもはるかに優れており, 事前学習モデルではMedQARo上での一般化が不可能であることが示唆された。
ルーマニア語における信頼性QAに対するドメイン特化と言語特化の両方の微調整の重要性が示唆された。
私たちはデータセットとコードをhttps://github.com/ana-rogoz/MedQARoで公開しています。
関連論文リスト
- PerMedCQA: Benchmarking Large Language Models on Medical Consumer Question Answering in Persian Language [0.1747623282473278]
PerMedCQAは、医療消費者の質問応答のための大規模な言語モデルを評価するためのペルシア語による最初のベンチマークである。
LLMグレーダによって駆動される新しい評価フレームワークであるMedJudgeを用いて、最先端の多言語および命令調整型LLMを評価した。
本研究は,多言語医療QAにおける重要な課題を浮き彫りにして,より正確でコンテキスト対応の医療支援システムの開発に有用な知見を提供するものである。
論文 参考訳(メタデータ) (2025-05-23T19:39:01Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - XAIQA: Explainer-Based Data Augmentation for Extractive Question
Answering [1.1867812760085572]
我々は,電子カルテで自然に利用可能なデータから,合成QAペアを大規模に生成するための新しいアプローチであるXAIQAを紹介する。
本手法は、分類モデル説明器の考え方を用いて、医療規範に対応する医療概念に関する質問や回答を生成する。
論文 参考訳(メタデータ) (2023-12-06T15:59:06Z) - Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文 参考訳(メタデータ) (2023-09-20T06:06:10Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。