論文の概要: PersianMedQA: Evaluating Large Language Models on a Persian-English Bilingual Medical Question Answering Benchmark
- arxiv url: http://arxiv.org/abs/2506.00250v3
- Date: Sun, 10 Aug 2025 15:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:52.963885
- Title: PersianMedQA: Evaluating Large Language Models on a Persian-English Bilingual Medical Question Answering Benchmark
- Title(参考訳): PersianMedQA: ペルシア英語のバイリンガル医療質問に対するベンチマークによる大規模言語モデルの評価
- Authors: Mohammad Javad Ranjbar Kalahroodi, Amirhossein Sheikholselami, Sepehr Karimi, Sepideh Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery,
- Abstract要約: 大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)ベンチマークにおいて、顕著なパフォーマンスを実現している。
イランの14年間の医学試験から得られた,20,785名の専門資格を持つペルシア人医療質問の大規模データセットであるペルシャMedQAを紹介した。
我々は、ゼロショットとチェーンオブ思考の設定で、汎用、ペルシャ細調整、医療用LLMを含む40の最先端モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 3.2640411992544345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance on a wide range of Natural Language Processing (NLP) benchmarks, often surpassing human-level accuracy. However, their reliability in high-stakes domains such as medicine, particularly in low-resource languages, remains underexplored. In this work, we introduce PersianMedQA, a large-scale dataset of 20,785 expert-validated multiple-choice Persian medical questions from 14 years of Iranian national medical exams, spanning 23 medical specialties and designed to evaluate LLMs in both Persian and English. We benchmark 40 state-of-the-art models, including general-purpose, Persian fine-tuned, and medical LLMs, in zero-shot and chain-of-thought (CoT) settings. Our results show that closed-source general models (e.g., GPT-4.1) consistently outperform all other categories, achieving 83.09% accuracy in Persian and 80.7% in English, while Persian fine-tuned models such as Dorna underperform significantly (e.g., 34.9% in Persian), often struggling with both instruction-following and domain reasoning. We also analyze the impact of translation, showing that while English performance is generally higher, 3-10% of questions can only be answered correctly in Persian due to cultural and clinical contextual cues that are lost in translation. Finally, we demonstrate that model size alone is insufficient for robust performance without strong domain or language adaptation. PersianMedQA provides a foundation for evaluating bilingual and culturally grounded medical reasoning in LLMs. The PersianMedQA dataset is available: https://huggingface.co/datasets/MohammadJRanjbar/PersianMedQA .
- Abstract(参考訳): 大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)ベンチマークで顕著な性能を達成しており、しばしば人間レベルの精度を上回っている。
しかし、医学、特に低資源言語などの高信頼領域における信頼性はいまだ未定である。
本研究は,イランの14年間の医学試験から得られた20,785名の専門資格を持つペルシア人医師の大規模データセットであるペルシャMedQAについて紹介し,23の専門医を対象に,ペルシャ語と英語の両方でLSMを評価するように設計された。
我々は、ゼロショットとチェーン・オブ・シント(CoT)設定で、汎用、ペルシャ細調整、医療用LLMを含む40の最先端モデルをベンチマークする。
以上の結果から,ペルシャ語では83.09%,英語では80.7%,ドーナ語では34.9%,ペルシャ語では34.9%のクローズドソース・ジェネラル・モデルでは命令追従とドメイン推論の両方に苦しむ場合が多く,クローズドソース・ジェネラル・モデル(例: GPT-4.1)は一貫して他のカテゴリよりも優れていた。
また,翻訳が与える影響を分析し,英語のパフォーマンスが概して高い一方で,翻訳で失われる文化的・臨床的文脈的手がかりにより,ペルシャ語では3~10%の質問が正しく答えられることが示唆された。
最後に、モデルのサイズだけでは、強いドメインや言語を適応させることなく、堅牢なパフォーマンスを実現するには不十分であることを示す。
ペルシャMedQAは、LLMにおけるバイリンガルおよび文化的根拠を持つ医学的推論を評価する基盤を提供する。
https://huggingface.co/datasets/MohammadJRanjbar/PersianMedQA というデータセットが利用可能だ。
関連論文リスト
- PerMedCQA: Benchmarking Large Language Models on Medical Consumer Question Answering in Persian Language [0.1747623282473278]
PerMedCQAは、医療消費者の質問応答のための大規模な言語モデルを評価するためのペルシア語による最初のベンチマークである。
LLMグレーダによって駆動される新しい評価フレームワークであるMedJudgeを用いて、最先端の多言語および命令調整型LLMを評価した。
本研究は,多言語医療QAにおける重要な課題を浮き彫りにして,より正確でコンテキスト対応の医療支援システムの開発に有用な知見を提供するものである。
論文 参考訳(メタデータ) (2025-05-23T19:39:01Z) - FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models [0.5221124918965586]
本稿では,ペルシア語における大規模言語モデルを評価するためのFarsEvalプロジェクトのサブセットであるFarsEval-PKBETSベンチマークを紹介する。
このベンチマークは4000の質問と、複数の選択、短い回答、記述的な応答を含む様々な形式の回答で構成されている。
医学、法律、宗教、ペルシア語、百科事典知識、人間の嗜好、社会知識、倫理と偏見、テキスト生成、他者の権利の尊重など幅広い分野やタスクをカバーしている。
論文 参考訳(メタデータ) (2025-04-20T17:43:47Z) - PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian [19.816050739495573]
PerCulは、ペルシャ文化に対するLLMの感受性を評価するために設計されたデータセットである。
PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。
我々は、最先端の多言語およびペルシア語固有のLLMを評価した。
論文 参考訳(メタデータ) (2025-02-11T11:07:44Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context [0.9074663948713616]
メンタルヘルス障害はアラブ世界で公衆衛生の懸念が高まっている。
本研究は,多様なメンタルヘルスデータセットに基づいて,8つの大言語モデル(LLM)を包括的に評価する。
論文 参考訳(メタデータ) (2025-01-12T16:17:25Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。