論文の概要: CliniBench: A Clinical Outcome Prediction Benchmark for Generative and Encoder-Based Language Models
- arxiv url: http://arxiv.org/abs/2509.26136v1
- Date: Tue, 30 Sep 2025 11:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.124725
- Title: CliniBench: A Clinical Outcome Prediction Benchmark for Generative and Encoder-Based Language Models
- Title(参考訳): CliniBench: 生成およびエンコーダに基づく言語モデルのための臨床結果予測ベンチマーク
- Authors: Paul Grundmann, Dennis Fast, Jan Frick, Thomas Steffek, Felix Gers, Wolfgang Nejdl, Alexander Löser,
- Abstract要約: 生成型大規模言語モデル (LLMs) は, 複雑な医療業務においてますます研究されている。
実際の臨床応用におけるそれらの効果は未解明のままである。
本報告では,MIMIC-IVデータセットにおける入力音からの退避診断予測のためのエンコーダベース分類器と生成LDMの比較を可能にする最初のベンチマークであるCliniBenchについて述べる。
- 参考スコア(独自算出の注目度): 39.221038061767324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With their growing capabilities, generative large language models (LLMs) are being increasingly investigated for complex medical tasks. However, their effectiveness in real-world clinical applications remains underexplored. To address this, we present CliniBench, the first benchmark that enables comparability of well-studied encoder-based classifiers and generative LLMs for discharge diagnosis prediction from admission notes in MIMIC-IV dataset. Our extensive study compares 12 generative LLMs and 3 encoder-based classifiers and demonstrates that encoder-based classifiers consistently outperform generative models in diagnosis prediction. We assess several retrieval augmentation strategies for in-context learning from similar patients and find that they provide notable performance improvements for generative LLMs.
- Abstract(参考訳): それらの能力の増大に伴い、複雑な医療タスクにおいて、生成的大規模言語モデル(LLM)がますます研究されている。
しかし、実際の臨床応用におけるそれらの効果は未解明のままである。
そこで本研究では,MIMIC-IVデータセットの入出力音符から,よく研究されたエンコーダベースの分類器と生成LDMの可読性を実現するための最初のベンチマークであるCliniBenchを提案する。
本研究は,12個のジェネレーティブLCMと3個のエンコーダベース分類器を比較し,エンコーダベース分類器が診断予測における生成モデルより一貫して優れていることを示す。
類似患者からのインコンテクスト学習のための検索強化戦略について検討し,その有効性について検討した。
関連論文リスト
- Large Language Models are Powerful Electronic Health Record Encoders [4.520903886487343]
汎用大規模言語モデル(LLM)は、下流臨床予測タスクの表現にERHデータをエンコードするために用いられる。
LLMをベースとした埋め込みは、特殊EHRファンデーションモデルの性能にマッチしたり、超えたりできることを示す。
検査されたLSMモデルのうちの1つは、疾患発症、入院、死亡予測において優れた性能を達成する。
論文 参考訳(メタデータ) (2025-02-24T18:30:36Z) - Enhancing In-Hospital Mortality Prediction Using Multi-Representational Learning with LLM-Generated Expert Summaries [3.5508427067904864]
ICU患者の院内死亡率(IHM)予測は、時間的介入と効率的な資源配分に重要である。
本研究は、構造化された生理データと臨床ノートをLarge Language Model(LLM)によって生成された専門家要約と統合し、IHM予測精度を向上させる。
論文 参考訳(メタデータ) (2024-11-25T16:36:38Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - ClinicRealm: Re-evaluating Large Language Models with Conventional Machine Learning for Non-Generative Clinical Prediction Tasks [22.539696532725607]
LLM(Large Language Models)は、医学においてますます普及している。
しかし, 臨床診断における有用性は未評価のままである。
本研究は,GPTをベースとしたLCM9,BERTをベースとしたモデル5,非構造化臨床ノートと構造化電子健康記録の従来手法7をベンチマークすることで,この問題に対処する。
論文 参考訳(メタデータ) (2024-07-26T06:09:10Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - A multi-stage machine learning model on diagnosis of esophageal
manometry [50.591267188664666]
このフレームワークには、飲み込みレベルにおけるディープラーニングモデルと、学習レベルにおける機能ベースの機械学習モデルが含まれている。
これは、生のマルチスワローデータからHRM研究のCC診断を自動的に予測する最初の人工知能モデルである。
論文 参考訳(メタデータ) (2021-06-25T20:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。