Fugu-MT 論文翻訳(概要): HealthQA-BR: A System-Wide Benchmark Reveals Critical Knowledge Gaps in Large Language Models

論文の概要: HealthQA-BR: A System-Wide Benchmark Reveals Critical Knowledge Gaps in Large Language Models

arxiv url: http://arxiv.org/abs/2506.21578v1
Date: Mon, 16 Jun 2025 07:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-07 02:47:44.293339
Title: HealthQA-BR: A System-Wide Benchmark Reveals Critical Knowledge Gaps in Large Language Models
Title（参考訳）: HealthQA-BR:大規模言語モデルにおける重要な知識ギャップを明らかにするシステムサイドベンチマーク
Authors: Andrew Maranhão Ventura D'addario,
Abstract要約: HealthQA-BRは、ポルトガル語を話す医療のための最初の大規模システムワイドベンチマークである。医学や専門知識だけでなく、看護、歯科、心理学、社会労働、その他の関連医療分野の知識も独自に評価している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The evaluation of Large Language Models (LLMs) in healthcare has been dominated by physician-centric, English-language benchmarks, creating a dangerous illusion of competence that ignores the interprofessional nature of patient care. To provide a more holistic and realistic assessment, we introduce HealthQA-BR, the first large-scale, system-wide benchmark for Portuguese-speaking healthcare. Comprising 5,632 questions from Brazil's national licensing and residency exams, it uniquely assesses knowledge not only in medicine and its specialties but also in nursing, dentistry, psychology, social work, and other allied health professions. We conducted a rigorous zero-shot evaluation of over 20 leading LLMs. Our results reveal that while state-of-the-art models like GPT 4.1 achieve high overall accuracy (86.6%), this top-line score masks alarming, previously unmeasured deficiencies. A granular analysis shows performance plummets from near-perfect in specialties like Ophthalmology (98.7%) to barely passing in Neurosurgery (60.0%) and, most notably, Social Work (68.4%). This "spiky" knowledge profile is a systemic issue observed across all models, demonstrating that high-level scores are insufficient for safety validation. By publicly releasing HealthQA-BR and our evaluation suite, we provide a crucial tool to move beyond single-score evaluations and toward a more honest, granular audit of AI readiness for the entire healthcare team.
Abstract（参考訳）: 医療におけるLarge Language Models (LLMs) の評価は、医師中心の英語のベンチマークによって支配されており、患者ケアの専門的性質を無視した危険な能力の錯覚を生み出している。より包括的で現実的な評価を提供するため、ポルトガル語を話す医療のための最初の大規模システムワイドベンチマークであるHealthQA-BRを導入する。ブラジルの免許試験と居住試験から5,632の質問を受理し、医学や専門知識だけでなく、看護、歯科、心理学、社会労働、その他の関連医療分野の知識も独自に評価している。我々は20種以上のLLMの厳密なゼロショット評価を行った。 GPT 4.1のような最先端のモデルでは、全体的な精度は86.6%と高いが、このトップラインスコアマスクは、それまで測定されなかった欠陥を警告する。詳細な分析では、眼科医(98.7%)や神経外科医(60.0%)、特に社会労働(68.4%)など、ほぼ完璧な専門職の成績が急落している。この"スパイク"な知識プロファイルは、すべてのモデルで観察されるシステム的な問題であり、高いレベルのスコアが安全性の検証に不十分であることを示す。 HealthQA-BRと評価スイートを公開することによって、単一スコア評価を超えて、医療チーム全体のAI準備のより誠実で詳細な監査に向けて、重要なツールを提供します。

関連論文リスト

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
MLB: A Scenario-Driven Benchmark for Evaluating Large Language Models in Clinical Applications [27.73095565539546]
基礎知識とシナリオベース推論の両方に基づいて,LLM(Large Language Models)を評価するベンチマークである医療用LLMベンチマークMLBを紹介する。 MLBは、医療知識(MedKQA)、安全と倫理(MedSE)、医療記録理解(MedRU)、スマートサービス(SmartServ)、スマートヘルスケア(SmartCare)の5つのコア次元で構成されている。その設計は、300人の医師が参加する厳格なキュレーションパイプラインを特徴としている。また、専門家アノテーションに基づいて訓練されたSFT(Supervised Fine-Tuning)を用いた特別審査モデルを中心に、スケーラブルな評価手法を提供する。
論文参考訳（メタデータ） (2026-01-08T02:41:42Z)
A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care [5.167350493769989]
本研究は,NHSプライマリケアデータを用いたLSMベースの医薬品安全性評価システムの最初の評価である。患者を戦略的に採取し,幅広い臨床複雑性と薬剤の安全性リスクを捉えた。当システムでは,臨床症状の認識に強い性能を示した。
論文参考訳（メタデータ） (2025-12-24T11:58:49Z)
Generalist Foundation Models Are Not Clinical Enough for Hospital Operations [29.539795338917983]
我々は、NYU Langone HealthのEHRsと627Bのトークンから80Bのクリニカルトークンを混合した専用コーパスで事前訓練されたモデル群であるLang1を紹介する。実世界の環境でLang1を厳格に評価するために、668,331 EHRの指標であるRealistic Medical Evaluation (ReMedE)を開発した。ラング1-1Bは70倍、0ショットモデルが671倍、AUROCが3.64%-6.75%、1.66%-23.6%向上した。
論文参考訳（メタデータ） (2025-11-17T18:52:22Z)
EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文参考訳（メタデータ） (2025-09-24T14:09:55Z)
Arabic Large Language Models for Medical Text Generation [0.5483130283061118]
本研究では,アラビア語医療用テキスト生成のための大規模言語モデル(LLM)を提案する。このシステムは、正確な医療アドバイス、診断、薬物レコメンデーション、およびユーザ入力に基づく治療計画を提供することによって、患者を支援するように設計されている。
論文参考訳（メタデータ） (2025-09-12T09:37:26Z)
Mind the Gap: Evaluating the Representativeness of Quantitative Medical Language Reasoning LLM Benchmarks for African Disease Burdens [0.609562679184219]
既存のLCMベンチマークでは、高い所得設定による検査シラビと疾患プロファイルを主に反映している。 Alama Health QAはケニアのクリニカル・クリニカル・プラクティス・ガイドラインに固定された検索拡張生成フレームワークを用いて開発された。アラマは関連性およびガイドラインアライメントで最高であり、PubMedQAは臨床的有用性で最低であった。
論文参考訳（メタデータ） (2025-07-22T08:05:30Z)
MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。 MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-05-26T22:55:49Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Detecting Bias and Enhancing Diagnostic Accuracy in Large Language Models for Healthcare [0.2302001830524133]
バイアスドAIによる医療アドバイスと誤診は患者の安全を脅かす可能性がある。本研究では、医療における倫理的かつ正確なAIを促進するために設計された新しいリソースを紹介する。
論文参考訳（メタデータ） (2024-10-09T06:00:05Z)
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? [33.70022886795487]
OpenAIのo1は、強化学習戦略を使ったチェーン・オブ・ソート技術を使った最初のモデルとして際立っている。本報告では、様々な医療シナリオにおけるo1の総合的な探索を行い、理解、推論、多言語性という3つの重要な側面について検討する。
論文参考訳（メタデータ） (2024-09-23T17:59:43Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams [32.77551245372691]
医療におけるLLM(Large Language Models)の評価のための既存のベンチマークは、主に医師に焦点を当てている。従来の中国語における大規模医療知識ベンチマークであるEMPEC(Inspecters for Medical Personnel in Chinese)を紹介する。 EMPECは124人の被験者と20の医療専門家からなる157,803の試験質問からなる。
論文参考訳（メタデータ） (2024-06-17T08:40:36Z)
Evaluating Large Language Models for Public Health Classification and Extraction Tasks [0.3545046504280562]
本稿では,自由テキストの分類と抽出を含む公衆衛生業務におけるLarge Language Models(LLMs)の評価について述べる。ゼロショット・イン・コンテクスト学習を用いて,全タスクにまたがるオープンウェイトLLMを11個評価した。 LLMが公衆衛生の専門家にとって、様々な無料テキストソースから情報を抽出するのに有用なツールであることを示す有望な兆候を見出した。
論文参考訳（メタデータ） (2024-05-23T16:33:18Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文参考訳（メタデータ） (2023-05-17T12:31:26Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。