論文の概要: PersianMedQA: Language-Centric Evaluation of LLMs in the Persian Medical Domain
- arxiv url: http://arxiv.org/abs/2506.00250v2
- Date: Tue, 03 Jun 2025 00:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.581276
- Title: PersianMedQA: Language-Centric Evaluation of LLMs in the Persian Medical Domain
- Title(参考訳): ペルシャ・メドQA : ペルシャ医療領域におけるLLMの言語中心的評価
- Authors: Mohammad Javad Ranjbar Kalahroodi, Amirhossein Sheikholselami, Sepehr Karimi, Sepideh Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery,
- Abstract要約: 大規模言語モデル(LLM)は、広範囲のNLPベンチマークにおいて顕著な性能を達成しており、しばしば人間レベルの精度を上回っている。
本稿では,ペルシャの医療問題に対する大規模かつ専門家評価データセットであるペルシャMedQAを紹介する。
汎用、ペルシャ細調整、医療用LLMを含む40以上の最先端モデルをゼロショットおよびチェーンオブ思考設定でベンチマークする。
- 参考スコア(独自算出の注目度): 3.2640411992544345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable performance on a wide range of NLP benchmarks, often surpassing human-level accuracy. However, their reliability in high-stakes domains such as medicine, particularly in low-resource languages, remains underexplored. In this work, we introduce PersianMedQA, a large-scale, expert-validated dataset of multiple-choice Persian medical questions, designed to evaluate LLMs across both Persian and English. We benchmark over 40 state-of-the-art models, including general-purpose, Persian fine-tuned, and medical LLMs, in zero-shot and chain-of-thought (CoT) settings. Our results show that closed-source general models (e.g., GPT-4.1) consistently outperform all other categories, achieving 83.3% accuracy in Persian and 80.7% in English, while Persian fine-tuned models such as Dorna underperform significantly (e.g., 35.9% in Persian), often struggling with both instruction-following and domain reasoning. We also analyze the impact of translation, showing that while English performance is generally higher, Persian responses are sometimes more accurate due to cultural and clinical contextual cues. Finally, we demonstrate that model size alone is insufficient for robust performance without strong domain or language adaptation. PersianMedQA provides a foundation for evaluating multilingual and culturally grounded medical reasoning in LLMs. The PersianMedQA dataset can be accessed at: https://huggingface.co/datasets/MohammadJRanjbar/PersianMedQA
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲のNLPベンチマークにおいて顕著な性能を達成しており、しばしば人間レベルの精度を上回っている。
しかし、医学、特に低資源言語などの高信頼領域における信頼性はいまだ未定である。
本研究では,ペルシャ語と英語の両方にわたるLSMを評価するために設計された,複数のペルシャ語医療質問の大規模かつ専門家による評価データセットであるペルシャ語MedQAを紹介する。
我々は、ゼロショットとチェーン・オブ・シント(CoT)設定で、汎用、ペルシャ細調整、医療用LLMを含む40以上の最先端モデルをベンチマークする。
以上の結果から,ペルシャ語では83.3%,英語では80.7%,ドーナ語では35.9%,命令追従語では35.9%,ペルシャ語では8.3%であった。
また、翻訳の影響も分析し、英語のパフォーマンスは概して高いが、文化や臨床的文脈が原因でペルシャの反応がより正確であることが示されている。
最後に、モデルのサイズだけでは、強いドメインや言語を適応させることなく、堅牢なパフォーマンスを実現するには不十分であることを示す。
ペルシャMedQAは、LLMにおける多言語および文化的根拠を持つ医学的推論を評価する基盤を提供する。
https://huggingface.co/datasets/MohammadJRanjbar/PersianMedQA
関連論文リスト
- PerMedCQA: Benchmarking Large Language Models on Medical Consumer Question Answering in Persian Language [0.1747623282473278]
PerMedCQAは、医療消費者の質問応答のための大規模な言語モデルを評価するためのペルシア語による最初のベンチマークである。
LLMグレーダによって駆動される新しい評価フレームワークであるMedJudgeを用いて、最先端の多言語および命令調整型LLMを評価した。
本研究は,多言語医療QAにおける重要な課題を浮き彫りにして,より正確でコンテキスト対応の医療支援システムの開発に有用な知見を提供するものである。
論文 参考訳(メタデータ) (2025-05-23T19:39:01Z) - FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models [0.5221124918965586]
本稿では,ペルシア語における大規模言語モデルを評価するためのFarsEvalプロジェクトのサブセットであるFarsEval-PKBETSベンチマークを紹介する。
このベンチマークは4000の質問と、複数の選択、短い回答、記述的な応答を含む様々な形式の回答で構成されている。
医学、法律、宗教、ペルシア語、百科事典知識、人間の嗜好、社会知識、倫理と偏見、テキスト生成、他者の権利の尊重など幅広い分野やタスクをカバーしている。
論文 参考訳(メタデータ) (2025-04-20T17:43:47Z) - PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian [19.816050739495573]
PerCulは、ペルシャ文化に対するLLMの感受性を評価するために設計されたデータセットである。
PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。
我々は、最先端の多言語およびペルシア語固有のLLMを評価した。
論文 参考訳(メタデータ) (2025-02-11T11:07:44Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context [0.9074663948713616]
メンタルヘルス障害はアラブ世界で公衆衛生の懸念が高まっている。
本研究は,多様なメンタルヘルスデータセットに基づいて,8つの大言語モデル(LLM)を包括的に評価する。
論文 参考訳(メタデータ) (2025-01-12T16:17:25Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。