論文の概要: Contextual Phenotyping of Pediatric Sepsis Cohort Using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.09805v1
- Date: Wed, 14 May 2025 21:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.108887
- Title: Contextual Phenotyping of Pediatric Sepsis Cohort Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた小児敗血症コホートの文脈表現
- Authors: Aditya Nagori, Ayush Gautam, Matthew O. Wiens, Vuong Nguyen, Nathan Kenya Mugisha, Jerome Kabakyenga, Niranjan Kissoon, John Mark Ansermino, Rishikesan Kamaleswaran,
- Abstract要約: 本研究では,Large Language Model (LLM) に基づくクラスタリングを古典的手法に対して評価する。
患者記録は、クラスタリング目的と無関係にテキストにシリアライズされた。
クラスタリングの目的を持つLAMA 3.1 8Bは、より多くのクラスタでより優れた性能を発揮した。
- 参考スコア(独自算出の注目度): 2.593361890114316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Clustering patient subgroups is essential for personalized care and efficient resource use. Traditional clustering methods struggle with high-dimensional, heterogeneous healthcare data and lack contextual understanding. This study evaluates Large Language Model (LLM) based clustering against classical methods using a pediatric sepsis dataset from a low-income country (LIC), containing 2,686 records with 28 numerical and 119 categorical variables. Patient records were serialized into text with and without a clustering objective. Embeddings were generated using quantized LLAMA 3.1 8B, DeepSeek-R1-Distill-Llama-8B with low-rank adaptation(LoRA), and Stella-En-400M-V5 models. K-means clustering was applied to these embeddings. Classical comparisons included K-Medoids clustering on UMAP and FAMD-reduced mixed data. Silhouette scores and statistical tests evaluated cluster quality and distinctiveness. Stella-En-400M-V5 achieved the highest Silhouette Score (0.86). LLAMA 3.1 8B with the clustering objective performed better with higher number of clusters, identifying subgroups with distinct nutritional, clinical, and socioeconomic profiles. LLM-based methods outperformed classical techniques by capturing richer context and prioritizing key features. These results highlight potential of LLMs for contextual phenotyping and informed decision-making in resource-limited settings.
- Abstract(参考訳): 患者サブグループのクラスタリングは、パーソナライズされたケアと効率的なリソース利用に不可欠である。
従来のクラスタリング手法は、高次元で異質な医療データと競合し、文脈的理解が欠如している。
本研究では,28の数値と119のカテゴリー変数を持つ2,686のレコードを含む低所得国 (lic) の小児性敗血症データセットを用いて,古典的手法に対するLarge Language Model (LLM) に基づくクラスタリングを評価する。
患者記録は、クラスタリング目的と無関係にテキストにシリアライズされた。
埋め込みは量子化LLAMA 3.1 8B、低ランク適応(LoRA)のDeepSeek-R1-Distill-Llama-8B、Stella-En-400M-V5モデルを用いて生成された。
これらの埋め込みにK平均クラスタリングを適用した。
古典的な比較では、UMAP上のK-メドイドとFAMDによる混合データをクラスタリングする。
シルエットスコアと統計検査はクラスタの品質と特異性を評価した。
Stella-En-400M-V5は最高のシルエットスコア(0.86)を達成した。
クラスタリング目的のLAMA 3.1 8Bは、栄養学的、臨床的、社会経済的プロファイルが異なるサブグループを同定し、より多くのクラスタでより良いパフォーマンスを示した。
LLMベースの手法は、よりリッチなコンテキストをキャプチャし、重要な特徴を優先順位付けすることで、従来の手法よりも優れていた。
これらの結果は、資源制限設定における文脈表現と情報決定のためのLLMの可能性を強調した。
関連論文リスト
- Balancing Complexity and Informativeness in LLM-Based Clustering: Finding the Goldilocks Zone [0.0]
本稿では,情報性と認知的単純さのトレードオフを定量化することにより,最適なクラスタ数について検討する。
大規模言語モデル(LLM)を用いてクラスタ名を生成し,その有効性を評価する。
語彙分類における言語効率を並列化する16-22クラスタの最適範囲を同定する。
論文 参考訳(メタデータ) (2025-04-06T01:16:22Z) - Dial-In LLM: Human-Aligned LLM-in-the-loop Intent Clustering for Customer Service Dialogues [18.744211667479995]
本稿では,微調整の有効性について検討する。
意味的コヒーレンス評価と意図クラスタ命名におけるLLM
また、アンも提案している。
LLM-ITLクラスタリングアルゴリズムは反復的な発見を容易にする。
コヒーレントな意図のクラスター
論文 参考訳(メタデータ) (2024-12-12T08:19:01Z) - Dirichlet Process-based Robust Clustering using the Median-of-Means Estimator [16.774378814288806]
本稿では,モデルに基づく手法とセントロイド方式の長所を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
本手法は,クラスタリングの品質に及ぼすノイズの影響を緩和するが,同時にクラスタ数を推定する。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Simple and Scalable Algorithms for Cluster-Aware Precision Medicine [0.0]
共同クラスタリングと埋め込みに対するシンプルでスケーラブルなアプローチを提案する。
この新しいクラスタ対応の埋め込みアプローチは、現在の共同埋め込みとクラスタリング法の複雑さと限界を克服する。
当社のアプローチでは,ユーザが希望するクラスタ数を選択する必要はなく,階層的にクラスタ化された埋め込みの解釈可能なデンドログラムを生成する。
論文 参考訳(メタデータ) (2022-11-29T19:27:26Z) - CAC: A Clustering Based Framework for Classification [20.372627144885158]
分類アウェアクラスタリング(CAC)と呼ばれるシンプルで効率的で汎用的なフレームワークを設計する。
本実験は,クラスタリングと分類を併用した従来の手法よりもCACの有効性を示すものである。
論文 参考訳(メタデータ) (2021-02-23T18:59:39Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Progressive Cluster Purification for Unsupervised Feature Learning [48.87365358296371]
教師なしの特徴学習では、サンプル特異性に基づく手法はクラス間の情報を無視する。
本稿では,プログレッシブクラスタ形成時にクラス不整合サンプルを除外するクラスタリングに基づく新しい手法を提案する。
我々の手法は、プログレッシブ・クラスタ・パーフィケーション(PCP)と呼ばれ、訓練中に徐々にクラスタ数を減らし、プログレッシブ・クラスタリングを実装している。
論文 参考訳(メタデータ) (2020-07-06T08:11:03Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。