Fugu-MT 論文翻訳(概要): Predicting postoperative risks using large language models

論文の概要: Predicting postoperative risks using large language models

arxiv url: http://arxiv.org/abs/2402.17493v3
Date: Thu, 25 Apr 2024 05:04:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 20:58:26.828556
Title: Predicting postoperative risks using large language models
Title（参考訳）: 大規模言語モデルを用いた術後リスク予測
Authors: Bing Xue, Charles Alba, Joanna Abraham, Thomas Kannampallil, Chenyang Lu,
Abstract要約: 各種チューニング手法を用いて, 臨床テキストによる術後リスク予測のための大規模言語モデル (LLM) について検討した。その結果,30日間の死亡,肺塞栓症,肺炎が認められた。事前訓練されたLLMは従来の単語の埋め込みよりも優れており、AUROCは38.3%、AUPRCは14%だった。
参考スコア（独自算出の注目度）: 7.42249589630227
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Predicting postoperative risk can inform effective care management & planning. We explored large language models (LLMs) in predicting postoperative risk through clinical texts using various tuning strategies. Records spanning 84,875 patients from Barnes Jewish Hospital (BJH) between 2018 & 2021, with a mean duration of follow-up based on the length of postoperative ICU stay less than 7 days, were utilized. Methods were replicated on the MIMIC-III dataset. Outcomes included 30-day mortality, pulmonary embolism (PE) & pneumonia. Three domain adaptation & finetuning strategies were implemented for three LLMs (BioGPT, ClinicalBERT & BioClinicalBERT): self-supervised objectives; incorporating labels with semi-supervised fine-tuning; & foundational modelling through multi-task learning. Model performance was compared using the AUROC & AUPRC for classification tasks & MSE & R2 for regression tasks. Cohort had a mean age of 56.9 (sd: 16.8) years; 50.3% male; 74% White. Pre-trained LLMs outperformed traditional word embeddings, with absolute maximal gains of 38.3% for AUROC & 14% for AUPRC. Adapting models through self-supervised finetuning further improved performance by 3.2% for AUROC & 1.5% for AUPRC Incorporating labels into the finetuning procedure further boosted performances, with semi-supervised finetuning improving by 1.8% for AUROC & 2% for AUPRC & foundational modelling improving by 3.6% for AUROC & 2.6% for AUPRC compared to self-supervised finetuning. Pre-trained clinical LLMs offer opportunities for postoperative risk predictions with unseen data, & further improvements from finetuning suggests benefits in adapting pre-trained models to note-specific perioperative use cases. Incorporating labels can further boost performance. The superior performance of foundational models suggests the potential of task-agnostic learning towards the generalizable LLMs in perioperative care.
Abstract（参考訳）: 術後のリスクを予測することは、効果的なケア管理と計画に影響を及ぼす可能性がある。各種チューニング手法を用いて, 臨床テキストによる術後リスク予測のための大規模言語モデル (LLM) について検討した。 2018年から2021年の間,バーンズ・ユダヤ人病院(BJH)の84,875人の患者を対象とし,術後7日間のICU持続時間に基づく追跡調査を行った。 MIMIC-IIIデータセットにメソッドが複製された。その結果,30日間の死亡,肺塞栓症,肺炎が認められた。 3つのLLM (BioGPT, ClinicalBERT, BioClinicalBERT) に対して, 自己指導的目的, ラベルを半監督的微調整に組み込むこと, マルチタスク学習による基礎的モデリングを行った。モデル性能をAUROC & AUPRC を用いて分類タスクと回帰タスクの MSE & R2 と比較した。コホートの平均年齢は56.9歳(16.8歳)、男性50.3%、白人74%だった。事前訓練されたLLMは従来の単語の埋め込みよりも優れており、AUROCは38.3%、AUPRCは14%だった。自己監督微調整によるモデルの適用により、AUROCは3.2%、AUPRCは1.5%の性能向上、半監督微調整は1.8%、AUPRCは2%、基礎モデリングは3.6%、AUROCは2.6%向上した。事前訓練された臨床LSMは、未確認データによる術後リスク予測の機会を提供し、微調整によるさらなる改善は、ノート固有の周術期のユースケースに事前訓練されたモデルを適用することの利点を示唆している。ラベルを組み込むことでパフォーマンスをさらに向上させることができる。基本モデルの優れた性能は、周術期医療における汎用LSMに向けたタスク非依存学習の可能性を示している。

関連論文リスト

PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。 LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文参考訳（メタデータ） (2026-03-02T00:50:39Z)
Explainable Admission-Level Predictive Modeling for Prolonged Hospital Stay in Elderly Populations: Challenges in Low- and Middle-Income Countries [65.4286079244589]
長期滞在期間 (pLoS) は, 院内感染のリスクに関連する重要な要因である。入院レベルの患者と病院の診療データを用いて, pLosの予測モデルを開発し, 解説する。
論文参考訳（メタデータ） (2026-01-07T23:35:24Z)
Generalist Foundation Models Are Not Clinical Enough for Hospital Operations [29.539795338917983]
我々は、NYU Langone HealthのEHRsと627Bのトークンから80Bのクリニカルトークンを混合した専用コーパスで事前訓練されたモデル群であるLang1を紹介する。実世界の環境でLang1を厳格に評価するために、668,331 EHRの指標であるRealistic Medical Evaluation (ReMedE)を開発した。ラング1-1Bは70倍、0ショットモデルが671倍、AUROCが3.64%-6.75%、1.66%-23.6%向上した。
論文参考訳（メタデータ） (2025-11-17T18:52:22Z)
A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。 13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文参考訳（メタデータ） (2025-07-31T12:10:00Z)
Development and Comparative Evaluation of Three Artificial Intelligence Models (NLP, LLM, JEPA) for Predicting Triage in Emergency Departments: A 7-Month Retrospective Proof-of-Concept [0.0]
救急部門は、特に過度なトリアージエラー、特に過度なトリアージと過剰なトリアージに悩まされている。本研究では3つのAIモデル(TRIAGEmaster(NLP)、URGENTIAPARSE(LLM)、EMERGINET(JEPA))をFRENCHトリアージ尺度と看護実習に対して評価した。
論文参考訳（メタデータ） (2025-07-01T16:37:55Z)
MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。 MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-05-26T22:55:49Z)
Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文参考訳（メタデータ） (2025-05-23T14:06:42Z)
ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文参考訳（メタデータ） (2025-04-29T16:48:23Z)
The Role of Machine Learning in Reducing Healthcare Costs: The Impact of Medication Adherence and Preventive Care on Hospitalization Expenses [18.97832426593808]
本研究は, 入院率の低下にともなう予防ケアと薬剤順守の重要性を明らかにする。 Logistic Regression、Gradient Boosting、Random Forest、Artificial Neural Networksの4つの機械学習モデルを使用して、5年間の入院リスクを予測する。高用量と一貫した予防ケアを持つ患者は、入院リスクの38.3%と37.7%を減少させることができる。
論文参考訳（メタデータ） (2025-04-10T03:28:42Z)
Primary Care Diagnoses as a Reliable Predictor for Orthopedic Surgical Interventions [0.10624941710159722]
リファラルワークフローの非効率性は、最適な患者と高い医療費に寄与する。本研究では,プライマリケアの診断項目に基づく手続き的ニーズの予測の可能性について検討した。
論文参考訳（メタデータ） (2025-02-06T17:15:12Z)
Leveraging Large Language Models to Enhance Machine Learning Interpretability and Predictive Performance: A Case Study on Emergency Department Returns for Mental Health Patients [2.3769374446083735]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文参考訳（メタデータ） (2025-01-21T15:41:20Z)
Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise [19.71388941192149]
大規模言語モデル(LLM)が生み出す臨床ノートに段階的な報酬信号を提供するために、PRMを訓練する。提案手法は,LLaMA-3.18Bインストラクタモデルを用いて学習し,ジェミニプロ1.5とバニラ結果監督報酬モデル(ORM)を2つの重要な評価で比較した。
論文参考訳（メタデータ） (2024-12-17T06:24:34Z)
A Novel Generative Multi-Task Representation Learning Approach for Predicting Postoperative Complications in Cardiac Surgery Patients [7.42249589630227]
機械学習は、術後合併症に対する患者のリスクを特定し、予測するために利用することができる。新規な手術用変分オートエンコーダを用いて術後合併症の予測と評価を行った。 surgVAEは、クロスタスクとクロスコホートプレゼンテーション学習を通じて固有のパターンを明らかにする。
論文参考訳（メタデータ） (2024-12-02T20:24:02Z)
DeLLiriuM: A large language model for delirium prediction in the ICU using structured EHR [1.4699314771635081]
デリリウムは急性の混乱状態であり、集中治療室(ICU)の31%の患者に影響を及ぼすことが示されている。 3大データベースにわたる195病院のICU入院患者104,303名を対象にDeLLiriuMの開発と評価を行った。
論文参考訳（メタデータ） (2024-10-22T18:56:31Z)
Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文参考訳（メタデータ） (2024-07-25T05:03:01Z)
Automatic Prediction of Amyotrophic Lateral Sclerosis Progression using Longitudinal Speech Transformer [56.17737749551133]
ニューラルネットワークを用いたALS病進行自動予測器であるALS長手音声変換器(ALST)を提案する。録音における高品質な事前訓練音声特徴と長手情報を活用することで、最良のモデルが91.0%のAUCを達成できる。 ALSTはALS進行の細粒度で解釈可能な予測が可能で、特に稀な症例と重篤な症例の区別が可能である。
論文参考訳（メタデータ） (2024-06-26T13:28:24Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Modified Risk Formulation for Improving the Prediction of Knee Osteoarthritis Progression [36.12790384412525]
変形性関節症(OA)の予後を予測するための現在の手法は、疾患固有の先行知識を取り入れていない。我々は,OA結果予測を改善するために連続画像解析を効果的に活用する新しい手法を開発した。
論文参考訳（メタデータ） (2024-06-14T15:24:49Z)
RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness [102.06442250444618]
RLAIF-Vは,MLLMを完全なオープンソースパラダイムで整列させる新しいフレームワークである。 RLAIF-Vは、高品質なフィードバックデータ生成を含む2つの観点から、オープンソースのMLLMを最大限に探求する。 RLAIF-Vは、自動評価と人的評価の両方で6つのベンチマーク実験を行い、モデルの信頼性を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-05-27T14:37:01Z)
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文参考訳（メタデータ） (2024-03-19T16:26:10Z)
Sequential Model for Predicting Patient Adherence in Subcutaneous Immunotherapy for Allergic Rhinitis [16.386676205583697]
皮膚下免疫療法はアレルギー性鼻炎(AR)の長期因果治療である本研究では、新しい機械学習モデルを活用し、AR患者の非一貫性のリスクを正確に予測することを目的とする。
論文参考訳（メタデータ） (2024-01-21T09:55:47Z)
Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-18T03:34:59Z)
Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models [53.859446823312126]
SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
論文参考訳（メタデータ） (2023-10-11T15:56:00Z)
Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文参考訳（メタデータ） (2022-04-22T17:27:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。