論文の概要: DM-Bench: Benchmarking LLMs for Personalized Decision Making in Diabetes Management
- arxiv url: http://arxiv.org/abs/2510.00038v2
- Date: Thu, 02 Oct 2025 19:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 12:05:48.061874
- Title: DM-Bench: Benchmarking LLMs for Personalized Decision Making in Diabetes Management
- Title(参考訳): DM-Bench:糖尿病管理における個人化意思決定のためのLCMのベンチマーク
- Authors: Maria Ana Cardei, Josephine Lamp, Mark Derdzinski, Karan Bhatia,
- Abstract要約: 実世界の意思決定タスクにおける大規模言語モデル(LLM)の性能を評価するために設計された最初のベンチマークであるDM-Benchを提案する。
我々のベンチマークは7つの異なるタスクカテゴリを含んでおり、糖尿病患者が質問する現実世界の質問の幅を反映している。
このベンチマークを確立することで、糖尿病治療におけるAIソリューションの信頼性、安全性、有効性、実用性を向上することを目指している。
- 参考スコア(独自算出の注目度): 1.8289322713164966
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present DM-Bench, the first benchmark designed to evaluate large language model (LLM) performance across real-world decision-making tasks faced by individuals managing diabetes in their daily lives. Unlike prior health benchmarks that are either generic, clinician-facing or focused on clinical tasks (e.g., diagnosis, triage), DM-Bench introduces a comprehensive evaluation framework tailored to the unique challenges of prototyping patient-facing AI solutions in diabetes, glucose management, metabolic health and related domains. Our benchmark encompasses 7 distinct task categories, reflecting the breadth of real-world questions individuals with diabetes ask, including basic glucose interpretation, educational queries, behavioral associations, advanced decision making and long term planning. Towards this end, we compile a rich dataset comprising one month of time-series data encompassing glucose traces and metrics from continuous glucose monitors (CGMs) and behavioral logs (e.g., eating and activity patterns) from 15,000 individuals across three different diabetes populations (type 1, type 2, pre-diabetes/general health and wellness). Using this data, we generate a total of 360,600 personalized, contextual questions across the 7 tasks. We evaluate model performance on these tasks across 5 metrics: accuracy, groundedness, safety, clarity and actionability. Our analysis of 8 recent LLMs reveals substantial variability across tasks and metrics; no single model consistently outperforms others across all dimensions. By establishing this benchmark, we aim to advance the reliability, safety, effectiveness and practical utility of AI solutions in diabetes care.
- Abstract(参考訳): 本稿では,糖尿病を日常的に管理する個人が直面する現実的な意思決定タスクにおいて,大規模言語モデル(LLM)の性能を評価するための最初のベンチマークであるDM-Benchを紹介する。
DM-Benchは、糖尿病、グルコース管理、メタボリックヘルス、および関連するドメインにおいて、患者が直面するAIソリューションをプロトタイピングするというユニークな課題に合わせた、総合的な評価フレームワークを導入している。
本ベンチマークでは,糖尿病患者が質問する現実の質問の幅を反映し,基礎的なグルコース解釈,教育的クエリ,行動関連,先進的な意思決定,長期計画など,7つのタスクカテゴリを対象とする。
この目的のために,3つの糖尿病集団(タイプ1,タイプ2,プレ糖尿病/一般健康・健康・健康)の15,000人を対象に,連続血糖モニター(CGM)と行動ログ(食事・活動パターンなど)からグルコースのトレースと測定値を含む1ヶ月の時系列データをコンパイルした。
このデータを用いて、7つのタスクの合計360,600のパーソナライズされたコンテキスト質問を生成する。
我々は,これらのタスクのモデル性能を,正確性,基礎性,安全性,明確性,行動可能性の5つの指標で評価した。
最近の8つのLCMの分析では、タスクやメトリクス間で大きなばらつきが示されています。
このベンチマークを確立することで、糖尿病治療におけるAIソリューションの信頼性、安全性、有効性、実用性を向上することを目指している。
関連論文リスト
- Glucose-ML: A collection of longitudinal diabetes datasets for development of robust AI solutions [0.0]
Glucose-MLは、公開されている10の糖尿病データセットのコレクションである。
Glucose-MLコレクションは、30,000日以上の連続グルコースモニター(CGM)データを含んでいる。
我々は,血糖予測の課題について事例研究を行った。
論文 参考訳(メタデータ) (2025-07-18T16:53:05Z) - Insulin Resistance Prediction From Wearables and Routine Blood Biomarkers [44.735350554750916]
われわれはインスリン抵抗性の研究のために、米国全土でこれまでで最大のデータセットをリモートで採用しました。
ディープニューラルネットワークモデルは、簡単に利用可能なデジタルバイオマーカーと血液バイオマーカーに基づいてインスリン抵抗を予測するために開発された。
モデルでは、肥満および妊娠中の被験者の93%の感度と95%の調整された特異性を示した。
論文 参考訳(メタデータ) (2025-04-30T16:10:20Z) - GlucoBench: Curated List of Continuous Glucose Monitoring Datasets with Prediction Benchmarks [0.12564343689544843]
連続血糖モニター (Continuous glucose monitors, CGM) は、血糖値を一定間隔で測定する小さな医療機器である。
CGMデータに基づくグルコーストラジェクトリの予測は、糖尿病管理を大幅に改善する可能性を秘めている。
論文 参考訳(メタデータ) (2024-10-08T08:01:09Z) - Chronic Disease Diagnoses Using Behavioral Data [42.96592744768303]
高血糖(糖尿病)、高脂血症、高血圧(総称3H)を独自の行動データを用いて診断することを目的としている。
論文 参考訳(メタデータ) (2024-10-04T12:52:49Z) - Diabetica: Adapting Large Language Model to Enhance Multiple Medical Tasks in Diabetes Care and Management [25.56300105245314]
大規模言語モデル(LLM)は、様々な医療シナリオにおいて有望であるが、様々な糖尿病タスクにおけるそれらの有効性は証明されていない。
本研究は糖尿病特異的LLMの訓練と評価のための枠組みを導入した。
論文 参考訳(メタデータ) (2024-09-20T03:47:54Z) - From Glucose Patterns to Health Outcomes: A Generalizable Foundation Model for Continuous Glucose Monitor Data Analysis [47.23780364438969]
本稿では,CGMデータの生成基盤モデルであるGluFormerについて紹介する。
GluFormerは、異なる民族や年齢、5つの国、8つのCGMデバイス、多様な病態状態にまたがる19の外部コホートに一般化する。
CGMデータと12年間のフォローアップを持つ580人の成人の縦断的研究において、GluFormerは血液HbA1C%よりも糖尿病を効果的に発症するリスクが高い個人を特定する。
論文 参考訳(メタデータ) (2024-08-20T13:19:06Z) - Multimodal Pretraining of Medical Time Series and Notes [45.89025874396911]
ディープラーニングモデルは、意味のあるパターンを抽出する際の約束を示すが、広範囲なラベル付きデータが必要である。
本稿では,臨床測定値とノートのアライメントに着目し,自己指導型事前学習を用いた新しいアプローチを提案する。
病院内での死亡予測や表現型化などの下流タスクでは、データのごく一部がラベル付けされた設定において、ベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-12-11T21:53:40Z) - Remote Medication Status Prediction for Individuals with Parkinson's
Disease using Time-series Data from Smartphones [75.23250968928578]
本稿では,パーキンソン病患者のmPowerデータセットを用いて薬剤状態を予測する方法を提案する。
提案手法は,3つの薬物状態を客観的に予測する上で有望な結果を示す。
論文 参考訳(メタデータ) (2022-07-26T02:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。