論文の概要: Cross-Lingual Empirical Evaluation of Large Language Models for Arabic Medical Tasks
- arxiv url: http://arxiv.org/abs/2602.05374v1
- Date: Thu, 05 Feb 2026 06:52:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.796371
- Title: Cross-Lingual Empirical Evaluation of Large Language Models for Arabic Medical Tasks
- Title(参考訳): アラビア語医療課題における大規模言語モデルの言語横断的経験的評価
- Authors: Chaimae Abouzahir, Congbo Ma, Nizar Habash, Farah E. Shamout,
- Abstract要約: 大規模言語モデル(LLM)は、臨床診断支援、医学教育、医療質問応答などの医療応用で広く使われている。
しかし、これらのモデルはしばしば英語中心であり、言語的に多様なコミュニティに対する頑丈さと信頼性を制限している。
最近の研究は、様々な医療タスクのための低リソース言語のパフォーマンスの相違を強調しているが、その根本原因はよく分かっていない。
- 参考スコア(独自算出の注目度): 12.886024273517556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Large Language Models (LLMs) have become widely used in medical applications, such as clinical decision support, medical education, and medical question answering. Yet, these models are often English-centric, limiting their robustness and reliability for linguistically diverse communities. Recent work has highlighted discrepancies in performance in low-resource languages for various medical tasks, but the underlying causes remain poorly understood. In this study, we conduct a cross-lingual empirical analysis of LLM performance on Arabic and English medical question and answering. Our findings reveal a persistent language-driven performance gap that intensifies with increasing task complexity. Tokenization analysis exposes structural fragmentation in Arabic medical text, while reliability analysis suggests that model-reported confidence and explanations exhibit limited correlation with correctness. Together, these findings underscore the need for language-aware design and evaluation strategies in LLMs for medical tasks.
- Abstract(参考訳): 近年, 臨床診断支援, 医学教育, 医療質問応答などの医療応用において, LLM (Large Language Models) が広く用いられている。
しかし、これらのモデルはしばしば英語中心であり、言語的に多様なコミュニティに対する頑丈さと信頼性を制限している。
最近の研究は、様々な医療タスクのための低リソース言語のパフォーマンスの相違を強調しているが、その根本原因はよく分かっていない。
本研究では,アラビア語および英語の医学的質問と回答に対するLLM性能の言語間比較実験を行った。
この結果から,タスクの複雑さの増大に伴って言語によるパフォーマンスギャップが増大することが明らかとなった。
トークン化分析はアラビア医学テキストの構造的断片化を露呈する一方、信頼性分析はモデル報告された信頼性と説明が正確さと限定的な相関を示すことを示唆している。
これらの結果から,LLMにおける言語対応設計と評価戦略の必要性が示唆された。
関連論文リスト
- Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Bridging Language Barriers in Healthcare: A Study on Arabic LLMs [1.2006896500048552]
本稿では,多言語理解と医学知識の両方に熟練した大規模言語モデルを開発する上での課題について考察する。
言語比率を慎重に調整した大規模モデルは、母国語の臨床課題において優れた性能を発揮することが判明した。
論文 参考訳(メタデータ) (2025-01-16T20:24:56Z) - Multi-OphthaLingua: A Multilingual Benchmark for Assessing and Debiasing LLM Ophthalmological QA in LMICs [3.1894617416005855]
大型言語モデル(LLM)は、様々な眼科手術を自動化するための有望なソリューションを提供する。
LLMは、自然言語の問合せタスクにおいて、様々な言語で顕著に異なる性能を示してきた。
本研究は,複数言語にまたがる質問を手作業でキュレートした,最初の多言語眼科的質問答えベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-18T20:18:03Z) - Polish-English medical knowledge transfer: A new benchmark and results [0.6804079979762627]
本研究では,ポーランドの医療ライセンシングと専門化試験に基づく新しいベンチマークデータセットを提案する。
ポーランド語と英語のパラレルコーパスのサブセットを含む24,000以上の試験質問を含んでいる。
汎用・ドメイン特化・ポーランド特化モデルを含む最先端のLCMを評価し,その性能を人間医学生と比較した。
論文 参考訳(メタデータ) (2024-11-30T19:02:34Z) - Building Multilingual Datasets for Predicting Mental Health Severity through LLMs: Prospects and Challenges [3.0382033111760585]
大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。
本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。
このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文 参考訳(メタデータ) (2024-09-25T22:14:34Z) - Evaluating Large Language Models for Radiology Natural Language
Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。
本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2023-07-25T17:57:18Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。