論文の概要: Benchmarking the Medical Understanding and Reasoning of Large Language Models in Arabic Healthcare Tasks
- arxiv url: http://arxiv.org/abs/2508.15797v1
- Date: Wed, 13 Aug 2025 10:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.53727
- Title: Benchmarking the Medical Understanding and Reasoning of Large Language Models in Arabic Healthcare Tasks
- Title(参考訳): アラビア語医療課題における大規模言語モデルの医学的理解と推論のベンチマーク
- Authors: Nouar AlDahoul, Yasir Zaki,
- Abstract要約: 本研究では、現在最先端の大規模言語モデルが、アラビア語の医療知識を如何に示し、具体化しているかについて検討する。
我々は、MedArabiQ2025トラックのアラビアNLP AraHealthQAチャレンジで提案された医療データセットを用いて、複数のLCMをベンチマークした。
その結果, 正解予測精度の有意な変動と, 生成した解のセマンティックアライメントの低変化が明らかになった。
- 参考スコア(独自算出の注目度): 1.3521447196536418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in large language models (LLMs) has showcased impressive proficiency in numerous Arabic natural language processing (NLP) applications. Nevertheless, their effectiveness in Arabic medical NLP domains has received limited investigation. This research examines the degree to which state-of-the-art LLMs demonstrate and articulate healthcare knowledge in Arabic, assessing their capabilities across a varied array of Arabic medical tasks. We benchmark several LLMs using a medical dataset proposed in the Arabic NLP AraHealthQA challenge in MedArabiQ2025 track. Various base LLMs were assessed on their ability to accurately provide correct answers from existing choices in multiple-choice questions (MCQs) and fill-in-the-blank scenarios. Additionally, we evaluated the capacity of LLMs in answering open-ended questions aligned with expert answers. Our results reveal significant variations in correct answer prediction accuracy and low variations in semantic alignment of generated answers, highlighting both the potential and limitations of current LLMs in Arabic clinical contexts. Our analysis shows that for MCQs task, the proposed majority voting solution, leveraging three base models (Gemini Flash 2.5, Gemini Pro 2.5, and GPT o3), outperforms others, achieving up to 77% accuracy and securing first place overall in the Arahealthqa 2025 shared task-track 2 (sub-task 1) challenge. Moreover, for the open-ended questions task, several LLMs were able to demonstrate excellent performance in terms of semantic alignment and achieve a maximum BERTScore of 86.44%.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多くのアラビア自然言語処理(NLP)アプリケーションで顕著な習熟性を示している。
それでも、アラビア医学NLPドメインにおけるそれらの効果は限定的な調査を受けている。
本研究では,現在最先端のLCMがアラビア語の医療知識を如何に示し,その能力を評価するかを検討する。
我々は、MedArabiQ2025トラックのアラビアNLP AraHealthQAチャレンジで提案された医療データセットを用いて、複数のLCMをベンチマークした。
マルチチョイス質問 (MCQ) や補間シナリオにおいて, 既存の選択から正解を正確に提示する能力に基づいて, 様々な基礎LCMを評価した。
さらに、専門家の回答に合わせたオープンエンドの質問に答えるLLMの能力を評価した。
その結果, 正しい回答予測精度と, 生成した回答のセマンティックアライメントの変動が顕著であり, アラビアの臨床文脈における現在のLSMの可能性と限界が明らかとなった。
分析の結果,MCQでは3つのベースモデル(Gemini Flash 2.5, Gemini Pro 2.5, GPT o3)を活用して,最大77%の精度を達成し,Arahealthqa 2025の共有タスクトラック2(sub-task 1)チャレンジで1位を確保した。
さらに、オープンエンドの質問タスクでは、いくつかのLCMがセマンティックアライメントの点で優れた性能を示し、最大 BERTScore 86.44% を達成することができた。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks [8.379270814399431]
本研究は、7つのアラビア医療タスクからなる新しいベンチマークデータセットであるMedArabiQを紹介する。
筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。
次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
論文 参考訳(メタデータ) (2025-05-06T11:07:26Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models [5.439020425819001]
大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。
しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
論文 参考訳(メタデータ) (2024-05-07T10:11:14Z) - MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering [8.110978727364397]
大規模言語モデル(LLM)は、人工知能技術の発展を促進する可能性を秘めている。
本稿では,MedExpQAについて述べる。MedExpQAは,医学質問応答におけるLSMを評価するための,医学試験に基づく最初の多言語ベンチマークである。
論文 参考訳(メタデータ) (2024-04-08T15:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。