論文の概要: MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks
- arxiv url: http://arxiv.org/abs/2505.03427v1
- Date: Tue, 06 May 2025 11:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.346101
- Title: MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks
- Title(参考訳): MedArabiQ: アラビア語の医療課題における大規模言語モデルのベンチマーク
- Authors: Mouath Abu Daoud, Chaimae Abouzahir, Leen Kharouf, Walid Al-Eisawi, Nizar Habash, Farah E. Shamout,
- Abstract要約: 本研究は、7つのアラビア医療タスクからなる新しいベンチマークデータセットであるMedArabiQを紹介する。
筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。
次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
- 参考スコア(独自算出の注目度): 7.822971505079421
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant promise for various applications in healthcare. However, their efficacy in the Arabic medical domain remains unexplored due to the lack of high-quality domain-specific datasets and benchmarks. This study introduces MedArabiQ, a novel benchmark dataset consisting of seven Arabic medical tasks, covering multiple specialties and including multiple choice questions, fill-in-the-blank, and patient-doctor question answering. We first constructed the dataset using past medical exams and publicly available datasets. We then introduced different modifications to evaluate various LLM capabilities, including bias mitigation. We conducted an extensive evaluation with five state-of-the-art open-source and proprietary LLMs, including GPT-4o, Claude 3.5-Sonnet, and Gemini 1.5. Our findings highlight the need for the creation of new high-quality benchmarks that span different languages to ensure fair deployment and scalability of LLMs in healthcare. By establishing this benchmark and releasing the dataset, we provide a foundation for future research aimed at evaluating and enhancing the multilingual capabilities of LLMs for the equitable use of generative AI in healthcare.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療における様々なアプリケーションに対して大きな可能性を証明している。
しかしながら、アラビア語医学領域におけるそれらの効果は、高品質なドメイン固有のデータセットとベンチマークが欠如しているため、まだ探索されていない。
MedArabiQは、7つのアラビア医学的タスクからなる新しいベンチマークデータセットで、複数の専門知識をカバーし、複数の選択質問、補充問題、患者-医師による質問応答を含む。
筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。
次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
GPT-4o, Claude 3.5-Sonnet, Gemini 1.5。
我々の発見は、医療におけるLSMの公平な展開とスケーラビリティを確保するために、さまざまな言語にまたがる新しい高品質なベンチマークを作成する必要性を強調します。
このベンチマークを確立してデータセットを公開することにより、医療における生成AIの適切な使用のためのLLMの多言語能力の評価と向上を目的とした、将来の研究の基盤を提供する。
関連論文リスト
- WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation [4.149844666297669]
マルチモーダル/ビジョン言語モデル(VLM)は、世界中の医療分野でますます普及している。
既存のデータセットはテキストのみであり、言語や国の限られたサブセットで利用可能である。
WorldMedQA-Vには、4カ国の医療画像と組み合わせて568のラベル付き多重選択QAが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:31:24Z) - A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。
本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文 参考訳(メタデータ) (2024-09-23T17:59:43Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains [8.448541067852]
大規模言語モデル(LLM)は近年,顕著な汎用性を示している。
健康状況に合わせて様々なオープンソース LLM が利用可能であるにもかかわらず、汎用 LLM を医療分野に適用することは重大な課題である。
我々は、Mistralを基盤モデルとして、バイオメディカルドメインに適したオープンソースのLLMであるBioMistralを紹介した。
論文 参考訳(メタデータ) (2024-02-15T23:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。