論文の概要: AI-MASLD Metabolic Dysfunction and Information Steatosis of Large Language Models in Unstructured Clinical Narratives
- arxiv url: http://arxiv.org/abs/2512.11544v1
- Date: Fri, 12 Dec 2025 13:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.779544
- Title: AI-MASLD Metabolic Dysfunction and Information Steatosis of Large Language Models in Unstructured Clinical Narratives
- Title(参考訳): 非構造的臨床試験におけるAI-MASLD代謝異常と大規模言語モデルの情報定常性
- Authors: Yuan Shen, Xiaojun Wu, Linghua Yu,
- Abstract要約: 本研究の目的は, 騒音と冗長性を有する患者主訴から中核医療情報を抽出する大規模言語モデルの有効性を評価することである。
我々は、標準化された医療プローブに基づく断面解析設計を採用し、研究対象として4つの主要なLCMを選択した。
Qwen3-Maxは最高の全体的なパフォーマンスを示し、Gemini 2.5は最悪の結果となった。
- 参考スコア(独自算出の注目度): 25.403894453021817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study aims to simulate real-world clinical scenarios to systematically evaluate the ability of Large Language Models (LLMs) to extract core medical information from patient chief complaints laden with noise and redundancy, and to verify whether they exhibit a functional decline analogous to Metabolic Dysfunction-Associated Steatotic Liver Disease (MASLD). We employed a cross-sectional analysis design based on standardized medical probes, selecting four mainstream LLMs as research subjects: GPT-4o, Gemini 2.5, DeepSeek 3.1, and Qwen3-Max. An evaluation system comprising twenty medical probes across five core dimensions was used to simulate a genuine clinical communication environment. All probes had gold-standard answers defined by clinical experts and were assessed via a double-blind, inverse rating scale by two independent clinicians. The results show that all tested models exhibited functional defects to varying degrees, with Qwen3-Max demonstrating the best overall performance and Gemini 2.5 the worst. Under conditions of extreme noise, most models experienced a functional collapse. Notably, GPT-4o made a severe misjudgment in the risk assessment for pulmonary embolism (PE) secondary to deep vein thrombosis (DVT). This research is the first to empirically confirm that LLMs exhibit features resembling metabolic dysfunction when processing clinical information, proposing the innovative concept of "AI-Metabolic Dysfunction-Associated Steatotic Liver Disease (AI-MASLD)". These findings offer a crucial safety warning for the application of Artificial Intelligence (AI) in healthcare, emphasizing that current LLMs must be used as auxiliary tools under human expert supervision, as there remains a significant gap between their theoretical knowledge and practical clinical application.
- Abstract(参考訳): 本研究の目的は,大言語モデル(LLMs)が騒音と冗長性を有する患者主訴から中核医学的情報を抽出する能力をシミュレートし,メタボリック障害関連脂肪肝疾患(MASLD)に類似した機能低下を示すかどうかを検証することである。
GPT-4o, Gemini 2.5, DeepSeek 3.1, Qwen3-Max の4つの主要なLCMを被験者として, 標準化された医療プローブに基づく断面解析設計を採用した。
実際の臨床コミュニケーション環境をシミュレートするために, 5次元にわたる20個の医療プローブを用いた評価システムを用いた。
全ての調査には、臨床専門家が定義したゴールドスタンダードの回答があり、2人の独立した臨床医による二重盲検逆評価尺度で評価された。
Qwen3-Maxは最高の全体的なパフォーマンスを示し、Gemini 2.5は最悪の結果となった。
極端な騒音の条件下では、ほとんどのモデルは機能的な崩壊を経験した。
特にGPT-4oは深部静脈血栓症(DVT)に続発する肺塞栓症(PE)のリスクアセスメントにおいて深刻な誤診をおこなった。
本研究は, 臨床情報処理において, LLMが代謝異常に類似した特徴を示すことを実証的に確認し, 「AI-MASLD(AI-Metabolic Dysfunction-Associated Steatotic Liver Disease)」の革新的な概念を提唱した。
これらの発見は、医療における人工知能(AI)の適用に重要な安全性警告を与え、現在のLSMは人間の専門家の監督の下で補助的なツールとして使用される必要があることを強調している。
関連論文リスト
- DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities [3.5045368873011924]
本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。
我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。
コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
論文 参考訳(メタデータ) (2025-11-08T11:08:27Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Simulating Clinical AI Assistance using Multimodal LLMs: A Case Study in Diabetic Retinopathy [0.0]
糖尿病網膜症(DR)は、世界中の視覚障害の主要な原因であり、AIシステムは、基礎的な写真スクリーニングへのアクセスを拡大することができる。
我々は、DRのための大規模言語モデル(MLLM)と、異なる出力タイプで臨床AI支援をシミュレートする能力を評価した。
これらの結果から、MLLMはDRスクリーニングパイプラインを改善し、様々な出力構成で臨床AIアシストを研究するためのスケーラブルなシミュレータとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-09-16T16:42:19Z) - Organ-Agents: Virtual Human Physiology Simulator via LLMs [66.40796430669158]
オルガン-エージェント(Organ-Agents)は、LDM駆動のエージェントを介して人間の生理学をシミュレートする多エージェントフレームワークである。
症例は7,134例,コントロール7,895例で,9系統および125変数にわたる高分解能トラジェクトリを作成した。
臓器抗原は4,509人の保留患者に対して高いシミュレーション精度を達成し, システムごとのMSE0.16とSOFA系重症度層間の堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-20T01:58:45Z) - Design and Validation of a Responsible Artificial Intelligence-based System for the Referral of Diabetic Retinopathy Patients [65.57160385098935]
糖尿病網膜症の早期発見は、視力喪失のリスクを最大95%減少させる可能性がある。
我々は、AIライフサイクル全体にわたる倫理的原則を取り入れた、DRスクリーニングのための責任あるAIシステムであるRAIS-DRを開発した。
当科におけるRAIS-DRをFDA認可のEyeArtシステムと比較した。
論文 参考訳(メタデータ) (2025-08-17T21:54:11Z) - SurgeryLSTM: A Time-Aware Neural Model for Accurate and Explainable Length of Stay Prediction After Spine Surgery [44.119171920037196]
選択的脊椎手術における滞在時間(LOS)予測のための機械学習モデルの開発と評価を行った。
我々は,従来のMLモデルと,マスク付き双方向長短期記憶(BiLSTM)であるオペレーショナルLSTMを比較した。
決定係数(R2)を用いて性能を評価し,説明可能なAIを用いて鍵予測器を同定した。
論文 参考訳(メタデータ) (2025-07-15T01:18:28Z) - A Language Vision Model Approach for Automated Tumor Contouring in Radiation Oncology [12.872083704552258]
肺がんは世界中でがん関連死亡の原因となっている。
Oncology Contouring Copilot システムは、腫瘍の正確なコントゥーリングのために、腫瘍学者の専門知識を活用するために開発された。
論文 参考訳(メタデータ) (2025-03-19T06:41:37Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。