論文の概要: MedAraBench: Large-Scale Arabic Medical Question Answering Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2602.01714v1
- Date: Mon, 02 Feb 2026 06:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.959167
- Title: MedAraBench: Large-Scale Arabic Medical Question Answering Dataset and Benchmark
- Title(参考訳): MedAraBench: 大規模なアラビア語の医療質問がデータセットとベンチマークに答える
- Authors: Mouath Abu-Daoud, Leen Kharouf, Omar El Hajj, Dana El Samad, Mariam Al-Omari, Jihad Mallat, Khaled Saleh, Nizar Habash, Farah E. Shamout,
- Abstract要約: アラビア語は自然言語処理研究において最も不十分な言語の一つである。
メドラベンチ(MedAraBench)は、アラブの様々な専門分野にまたがる質問・回答のペアからなる大規模なデータセットである。
- 参考スコア(独自算出の注目度): 8.428847258506176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Arabic remains one of the most underrepresented languages in natural language processing research, particularly in medical applications, due to the limited availability of open-source data and benchmarks. The lack of resources hinders efforts to evaluate and advance the multilingual capabilities of Large Language Models (LLMs). In this paper, we introduce MedAraBench, a large-scale dataset consisting of Arabic multiple-choice question-answer pairs across various medical specialties. We constructed the dataset by manually digitizing a large repository of academic materials created by medical professionals in the Arabic-speaking region. We then conducted extensive preprocessing and split the dataset into training and test sets to support future research efforts in the area. To assess the quality of the data, we adopted two frameworks, namely expert human evaluation and LLM-as-a-judge. Our dataset is diverse and of high quality, spanning 19 specialties and five difficulty levels. For benchmarking purposes, we assessed the performance of eight state-of-the-art open-source and proprietary models, such as GPT-5, Gemini 2.0 Flash, and Claude 4-Sonnet. Our findings highlight the need for further domain-specific enhancements. We release the dataset and evaluation scripts to broaden the diversity of medical data benchmarks, expand the scope of evaluation suites for LLMs, and enhance the multilingual capabilities of models for deployment in clinical settings.
- Abstract(参考訳): アラビア語は、オープンソースデータとベンチマークが限られているため、自然言語処理の研究、特に医学的応用において、最も貧弱な言語である。
リソースの不足は、LLM(Large Language Models)の多言語能力の評価と向上に支障をきたす。
本稿では,アラビア語の複数の質問応答対からなる大規模データセットであるMedAraBenchについて紹介する。
我々は,アラビア語圏の医療専門家が作成した学術資料を手作業でデジタル化し,データセットを構築した。
その後、広範囲な事前処理を行い、データセットをトレーニングとテストセットに分割して、この分野における今後の研究活動を支援しました。
データの質を評価するために、専門家による評価とLSM-as-a-judgeという2つのフレームワークを採用した。
私たちのデータセットは多様で、高品質で、19の専門知識と5つの困難レベルにまたがっています。
ベンチマークのために、GPT-5、Gemini 2.0 Flash、Claude 4-Sonnetといった8つの最先端のオープンソースおよびプロプライエタリなモデルのパフォーマンスを評価した。
この発見は、さらなるドメイン固有の拡張の必要性を浮き彫りにしている。
このデータセットと評価スクリプトを公開し、医療データベンチマークの多様性を広げ、LCMの評価スイートの範囲を広げ、臨床環境に展開するモデルの多言語機能を強化する。
関連論文リスト
- Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks [8.379270814399431]
本研究は、7つのアラビア医療タスクからなる新しいベンチマークデータセットであるMedArabiQを紹介する。
筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。
次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
論文 参考訳(メタデータ) (2025-05-06T11:07:26Z) - WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation [4.149844666297669]
マルチモーダル/ビジョン言語モデル(VLM)は、世界中の医療分野でますます普及している。
既存のデータセットはテキストのみであり、言語や国の限られたサブセットで利用可能である。
WorldMedQA-Vには、4カ国の医療画像と組み合わせて568のラベル付き多重選択QAが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:31:24Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark
for Language Model Evaluation [22.986061896641083]
MedEvalは、医療のための言語モデルの開発を促進するために、マルチレベル、マルチタスク、マルチドメインの医療ベンチマークである。
22,779の文と21,228のレポートを収集し、専門家のアノテーションを複数のレベルで提供し、データの詳細な使用可能性を提供します。
論文 参考訳(メタデータ) (2023-10-21T18:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。