論文の概要: LLM-Based Support for Diabetes Diagnosis: Opportunities, Scenarios, and Challenges with GPT-5
- arxiv url: http://arxiv.org/abs/2509.21450v1
- Date: Thu, 25 Sep 2025 19:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.933158
- Title: LLM-Based Support for Diabetes Diagnosis: Opportunities, Scenarios, and Challenges with GPT-5
- Title(参考訳): 糖尿病診断のためのLCM-based Support: Opportunities, Scenarios, and Challenges with GPT-5
- Authors: Gaurav Kumar Gupta, Nirajan Acharya, Pranal Pande,
- Abstract要約: 本研究は、Ada Standards of Care 2025に準拠した合成ケースをベースとしたシミュレーションフレームワークを用いて、最新の生成事前学習トランスであるGPT-5を評価する。
症状認識, 検査室解釈, 妊娠中の糖尿病スクリーニング, リモートモニタリング, 合併症検出の5つのシナリオが検討された。
GPT-5は, 臨床医と患者のための多目的ツールとして機能する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diabetes mellitus is a major global health challenge, affecting over half a billion adults worldwide with prevalence projected to rise. Although the American Diabetes Association (ADA) provides clear diagnostic thresholds, early recognition remains difficult due to vague symptoms, borderline laboratory values, gestational complexity, and the demands of long-term monitoring. Advances in large language models (LLMs) offer opportunities to enhance decision support through structured, interpretable, and patient-friendly outputs. This study evaluates GPT-5, the latest generative pre-trained transformer, using a simulation framework built entirely on synthetic cases aligned with ADA Standards of Care 2025 and inspired by public datasets including NHANES, Pima Indians, EyePACS, and MIMIC-IV. Five representative scenarios were tested: symptom recognition, laboratory interpretation, gestational diabetes screening, remote monitoring, and multimodal complication detection. For each, GPT-5 classified cases, generated clinical rationales, produced patient explanations, and output structured JSON summaries. Results showed strong alignment with ADA-defined criteria, suggesting GPT-5 may function as a dual-purpose tool for clinicians and patients, while underscoring the importance of reproducible evaluation frameworks for responsibly assessing LLMs in healthcare.
- Abstract(参考訳): 糖尿病は世界的な健康上の大きな課題であり、世界中で5億人以上の成人に影響を及ぼし、流行が高まると予想されている。
アメリカ糖尿病協会(ADA)は、明確な診断基準を提供しているが、曖昧な症状、境界線検査値、妊娠の複雑さ、長期監視の要求により、早期の診断は依然として困難である。
大規模言語モデル(LLM)の進歩は、構造化され、解釈可能で、患者に優しいアウトプットを通じて意思決定支援を強化する機会を提供する。
本研究は,NHANES,Pima Indians,EyePACS,MIMIC-IVなどの公開データセットにインスパイアされた,ADA Standards of Care 2025に完全準拠した合成ケースをベースとしたシミュレーションフレームワークを用いて,最新の生成前トレーニングトランスフォーマであるGPT-5を評価する。
症状認識, 実験室解釈, 妊娠中の糖尿病スクリーニング, リモートモニタリング, マルチモーダル合併症検出の5つのシナリオが検討された。
各症例について, GPT-5分類例, 臨床理性発生例, 患者説明例, 構造化JSON要約例について検討した。
以上の結果から, GPT-5は臨床医と患者にとって二重目的のツールとして機能し, 医療におけるLLMの再現性評価フレームワークの重要性が示唆された。
関連論文リスト
- Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary [36.736436091313585]
この注釈書は、GPT-5ファミリー(GPT-5, GPT-5 Mini, GPT-5 Nano)の最初の制御された横断的な評価である。
GPT-5は、MedXpertQAの25ポイントを超える絶対的な改善により、専門家レベルのテキスト推論において著しく向上した。
マルチモーダル合成を課題とする場合、GPT-5はこの強化された推論能力を有効活用し、具体的な画像証拠に不確実な臨床物語を根拠とした。
論文 参考訳(メタデータ) (2026-03-05T03:24:48Z) - DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - FETAL-GAUGE: A Benchmark for Assessing Vision-Language Models in Fetal Ultrasound [2.8097961263689406]
出生前超音波画像の需要は、訓練されたソノグラフィーの世界的な不足を増している。
深層学習は、ソノグラフィーの効率を高め、新しい実践者の訓練を支援する可能性がある。
We present Fetal-Gauge, the first and largest visual question answering benchmark designed to evaluate Vision-Language Models (VLMs)。
対象は,42,000枚以上の画像と93,000枚の質問応答対,解剖学的平面同定,解剖学的形態の視覚的グラウンドニング,胎児の配向評価,臨床像の適合性,臨床診断である。
論文 参考訳(メタデータ) (2025-12-25T04:54:37Z) - A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - OpenAIs HealthBench in Action: Evaluating an LLM-Based Medical Assistant on Realistic Clinical Queries [2.2807344448218507]
われわれはHealthBenchを用いてRAGをベースとした臨床サポートアシスタントDR.INFOを評価した。
1000の挑戦的な例のハードサブセットでは、DR.INFOはHealthBenchスコア0.51を達成している。
同様のエージェントRAGアシスタントに対する100サンプルの別評価では、ヘルスベンチスコア0.54のパフォーマンスリードを維持している。
論文 参考訳(メタデータ) (2025-08-29T09:51:41Z) - Benchmarking GPT-5 for biomedical natural language processing [17.663813433200122]
本研究は,GPT-5とGPT-4oを5つの中核生物医学的NLPタスクで評価するための統一ベンチマークを拡張した。
GPT-5 は一貫して GPT-4o を上回り、推論集約データセットで最大の利益を得た。
論文 参考訳(メタデータ) (2025-08-28T13:06:53Z) - Capabilities of GPT-5 across critical domains: Is it the next breakthrough? [0.0]
OpenAIによるGPT-4は、推論、マルチモーダリティ、タスクの一般化の進歩をもたらした。
GPT-5は2025年8月にリリースされ、タスク固有の最適化のために設計されたシステム・オブ・モデルアーキテクチャが組み込まれている。
本研究は,GPT-4とGPT-5を言語学および臨床分野からヒトラッカーを用いて比較した最初の体系的比較例である。
論文 参考訳(メタデータ) (2025-08-16T12:26:11Z) - Capabilities of GPT-5 on Multimodal Medical Reasoning [4.403894457826502]
本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。
GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
論文 参考訳(メタデータ) (2025-08-11T17:43:45Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。