論文の概要: PerMedCQA: Benchmarking Large Language Models on Medical Consumer Question Answering in Persian Language
- arxiv url: http://arxiv.org/abs/2505.18331v1
- Date: Fri, 23 May 2025 19:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.345559
- Title: PerMedCQA: Benchmarking Large Language Models on Medical Consumer Question Answering in Persian Language
- Title(参考訳): PerMedCQA:ペルシア語で回答する医療消費者の質問に対する大規模言語モデルのベンチマーク
- Authors: Naghmeh Jamali, Milad Mohammadi, Danial Baledi, Zahra Rezvani, Hesham Faili,
- Abstract要約: PerMedCQAは、医療消費者の質問応答のための大規模な言語モデルを評価するためのペルシア語による最初のベンチマークである。
LLMグレーダによって駆動される新しい評価フレームワークであるMedJudgeを用いて、最先端の多言語および命令調整型LLMを評価した。
本研究は,多言語医療QAにおける重要な課題を浮き彫りにして,より正確でコンテキスト対応の医療支援システムの開発に有用な知見を提供するものである。
- 参考スコア(独自算出の注目度): 0.1747623282473278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical consumer question answering (CQA) is crucial for empowering patients by providing personalized and reliable health information. Despite recent advances in large language models (LLMs) for medical QA, consumer-oriented and multilingual resources, particularly in low-resource languages like Persian, remain sparse. To bridge this gap, we present PerMedCQA, the first Persian-language benchmark for evaluating LLMs on real-world, consumer-generated medical questions. Curated from a large medical QA forum, PerMedCQA contains 68,138 question-answer pairs, refined through careful data cleaning from an initial set of 87,780 raw entries. We evaluate several state-of-the-art multilingual and instruction-tuned LLMs, utilizing MedJudge, a novel rubric-based evaluation framework driven by an LLM grader, validated against expert human annotators. Our results highlight key challenges in multilingual medical QA and provide valuable insights for developing more accurate and context-aware medical assistance systems. The data is publicly available on https://huggingface.co/datasets/NaghmehAI/PerMedCQA
- Abstract(参考訳): 医療コンシューマー質問応答(CQA)は、パーソナライズされた信頼性のある健康情報を提供することによって、患者に力を与えるために重要である。
医療用QAのための大規模言語モデル(LLM)の最近の進歩にもかかわらず、特にペルシャ語のような低リソース言語では、消費者指向および多言語資源は依然として希薄である。
このギャップを埋めるために、私たちはPerMedCQAを紹介します。
PerMedCQAには68,138組の質問応答ペアが含まれており、87,780個の生のエントリの最初のセットから慎重にデータをクリーニングすることで精査されている。
我々は,LLMグレーダによって駆動される新しいルーリックベースの評価フレームワークであるMedJudgeを用いて,最先端の多言語および命令チューニングLLMを評価し,専門家のアノテータに対して検証した。
本研究は,多言語医療QAにおける重要な課題を浮き彫りにして,より正確でコンテキスト対応の医療支援システムの開発に有用な知見を提供するものである。
データはhttps://huggingface.co/datasets/NaghmehAI/PerMedCQAで公開されている。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - A Benchmark for Long-Form Medical Question Answering [4.815957808858573]
長期医療質問応答(QA)における大規模言語モデル(LLM)の評価のためのベンチマークの欠如
既存のQA評価ベンチマークのほとんどは、自動メトリクスと複数項目の質問に焦点を当てている。
本研究は,医科医が注釈を付した長文回答評価を伴う現実の消費者医療質問を特徴とする,新たに公開されたベンチマークを提案する。
論文 参考訳(メタデータ) (2024-11-14T22:54:38Z) - MedConceptsQA: Open Source Medical Concepts QA Benchmark [0.07083082555458872]
MedConceptsQAは、医療概念質問応答のための専用のオープンソースベンチマークである。
このベンチマークは、診断、手順、薬物など、さまざまな語彙の様々な医学概念に関する質問で構成されている。
各種大規模言語モデルを用いて評価を行った。
論文 参考訳(メタデータ) (2024-05-12T17:54:50Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。