論文の概要: ADRD-Bench: A Preliminary LLM Benchmark for Alzheimer's Disease and Related Dementias
- arxiv url: http://arxiv.org/abs/2602.11460v1
- Date: Thu, 12 Feb 2026 00:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.589039
- Title: ADRD-Bench: A Preliminary LLM Benchmark for Alzheimer's Disease and Related Dementias
- Title(参考訳): ADRD-Bench : アルツハイマー病と認知症に関する予備的LCMベンチマーク
- Authors: Guangxin Zhao, Jiahao Zheng, Malaz Boustani, Jarek Nabrzyski, Meng Jiang, Yiyu Shi, Zhi Zheng,
- Abstract要約: 大規模言語モデル(LLM)の厳密な評価のためのADRD固有のベンチマークデータセットであるADRD-Benchを紹介する。
ADRD-Benchは、(1)ADRD統一QA(ADRD Unified QA)、(2)ADRD介護QA(ADRD Caregiving QA)、(2)ADRD介護QA(ADRD Caregiving QA)の2つの構成要素を持つ。
提案したADRD-Benchを用いて33個の最先端LCMを評価した結果,オープンウェイト一般モデルの精度は0.63から0.93(平均0.78;:0.09)であった。
- 参考スコア(独自算出の注目度): 20.119142496474787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown great potential for healthcare applications. However, existing evaluation benchmarks provide minimal coverage of Alzheimer's Disease and Related Dementias (ADRD). To address this gap, we introduce ADRD-Bench, the first ADRD-specific benchmark dataset designed for rigorous evaluation of LLMs. ADRD-Bench has two components: 1) ADRD Unified QA, a synthesis of 1,352 questions consolidated from seven established medical benchmarks, providing a unified assessment of clinical knowledge; and 2) ADRD Caregiving QA, a novel set of 149 questions derived from the Aging Brain Care (ABC) program, a widely used, evidence-based brain health management program. Guided by a program with national expertise in comprehensive ADRD care, this new set was designed to mitigate the lack of practical caregiving context in existing benchmarks. We evaluated 33 state-of-the-art LLMs on the proposed ADRD-Bench. Results showed that the accuracy of open-weight general models ranged from 0.63 to 0.93 (mean: 0.78; std: 0.09). The accuracy of open-weight medical models ranged from 0.48 to 0.93 (mean: 0.82; std: 0.13). The accuracy of closed-source general models ranged from 0.83 to 0.91 (mean: 0.89; std: 0.03). While top-tier models achieved high accuracies (>0.9), case studies revealed that inconsistent reasoning quality and stability limit their reliability, highlighting a critical need for domain-specific improvement to enhance LLMs' knowledge and reasoning grounded in daily caregiving data. The entire dataset is available at https://github.com/IIRL-ND/ADRD-Bench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療アプリケーションにとって大きな可能性を示している。
しかし、既存の評価ベンチマークは、アルツハイマー病と関連する認知症(ADRD)の最小限のカバレッジを提供する。
このギャップに対処するために, LLMの厳密な評価のために設計されたADRD固有のベンチマークデータセットであるADRD-Benchを紹介する。
ADRD-Benchには2つのコンポーネントがある。
1)ADRD統一QAは、確立された7つの医療ベンチマークから統合された1,352の質問を合成し、臨床知識の統一的な評価を提供する。
2)ADRDケアギビングQAは,脳の健康管理プログラムとして広く利用されている老化脳ケア(ABC)プログラムに由来する149の質問からなる。
包括的なADRDケアに関する全国的な専門知識を持つプログラムによってガイドされたこの新しいセットは、既存のベンチマークにおける実践的なケアコンテキストの欠如を軽減するために設計された。
提案したADRD-Benchを用いて33個の最先端LCMを評価した。
その結果、オープンウェイト一般モデルの精度は0.63から0.93(平均0.78, std: 0.09)であった。
オープンウェイト医療モデルの精度は0.48から0.93(平均0.82; std: 0.13)であった。
クローズドソースの一般モデルの精度は0.83から0.91(平均0.89; std: 0.03)まで変化した。
上位層モデルでは高い精度 (>0.9) を達成したが, ケーススタディでは, 整合性推論の品質と安定性が信頼性を損なうことが判明し, 日常の介護データに根ざしたLLMの知識と推論を強化するために, ドメイン固有の改善の必要性が強調された。
データセット全体はhttps://github.com/IIRL-ND/ADRD-Bench.comで公開されている。
関連論文リスト
- Explainable Admission-Level Predictive Modeling for Prolonged Hospital Stay in Elderly Populations: Challenges in Low- and Middle-Income Countries [65.4286079244589]
長期滞在期間 (pLoS) は, 院内感染のリスクに関連する重要な要因である。
入院レベルの患者と病院の診療データを用いて, pLosの予測モデルを開発し, 解説する。
論文 参考訳(メタデータ) (2026-01-07T23:35:24Z) - Evaluating Large Language Models for Zero-Shot Disease Labeling in CT Radiology Reports Across Organ Systems [1.1373722549440357]
胸部,腹部,骨盤CTの多自由度ラベル付けのためのルールベースアルゴリズム(RBA),RadBERT,および3つの軽量オープンウェイトLCMを比較した。
コーエンのKappaとマイクロ/マクロ平均F1スコアを用いて評価した。
論文 参考訳(メタデータ) (2025-06-03T18:00:08Z) - Comparative analysis of privacy-preserving open-source LLMs regarding extraction of diagnostic information from clinical CMR imaging reports [0.49998148477760973]
9つのオープンソースのLarge Language Models (LLMs) について, 患者を診断し, 様々な診断カテゴリーに分類する能力について検討した。
GoogleのGemma2モデルは平均F1スコアが0.98で、Qwen2.5:32BとDeepseekR1-32Bはそれぞれ0.96と0.95だった。
論文 参考訳(メタデータ) (2025-05-29T11:25:10Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - All Data Inclusive, Deep Learning Models to Predict Critical Events in
the Medical Information Mart for Intensive Care III Database (MIMIC III) [0.0]
本研究は35,348人を対象に42,818人の入院患者を対象に行った。
複数のデータソースにわたる7500万以上のイベントが処理され、3億5500万以上のトークンが処理された。
すべてのデータソースを使用して構築されたモデルから、はるかに信頼性が高く、信頼性の高いホスピタル死亡を予測できる。
論文 参考訳(メタデータ) (2020-09-02T22:12:18Z) - Multimodal Inductive Transfer Learning for Detection of Alzheimer's
Dementia and its Severity [39.57255380551913]
本稿では,音響的,認知的,言語的特徴を活用してマルチモーダルアンサンブルシステムを構築する新しいアーキテクチャを提案する。
時相特性を持つ特殊な人工ニューラルネットワークを使用して、アルツハイマー認知症(AD)とその重症度を検出する。
本システムでは,AD分類では最先端試験精度,精度,リコール,F1スコアが83.3%,MMSEスコア評価では4.60の最先端試験根平均二乗誤差(RMSE)が得られた。
論文 参考訳(メタデータ) (2020-08-30T21:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。