論文の概要: When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications?
- arxiv url: http://arxiv.org/abs/2408.11854v1
- Date: Thu, 15 Aug 2024 03:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 13:51:32.174690
- Title: When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications?
- Title(参考訳): 生データの普及時期:医療機械学習アプリケーションにおける大規模言語モデル埋め込みは数値データ表現に有効か?
- Authors: Yanjun Gao, Skatje Myers, Shan Chen, Dmitriy Dligach, Timothy A Miller, Danielle Bitterman, Matthew Churpek, Majid Afshar,
- Abstract要約: 大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
- 参考スコア(独自算出の注目度): 8.89829757177796
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The introduction of Large Language Models (LLMs) has advanced data representation and analysis, bringing significant progress in their use for medical questions and answering. Despite these advancements, integrating tabular data, especially numerical data pivotal in clinical contexts, into LLM paradigms has not been thoroughly explored. In this study, we examine the effectiveness of vector representations from last hidden states of LLMs for medical diagnostics and prognostics using electronic health record (EHR) data. We compare the performance of these embeddings with that of raw numerical EHR data when used as feature inputs to traditional machine learning (ML) algorithms that excel at tabular data learning, such as eXtreme Gradient Boosting. We focus on instruction-tuned LLMs in a zero-shot setting to represent abnormal physiological data and evaluating their utilities as feature extractors to enhance ML classifiers for predicting diagnoses, length of stay, and mortality. Furthermore, we examine prompt engineering techniques on zero-shot and few-shot LLM embeddings to measure their impact comprehensively. Although findings suggest the raw data features still prevails in medical ML tasks, zero-shot LLM embeddings demonstrate competitive results, suggesting a promising avenue for future research in medical applications.
- Abstract(参考訳): LLM(Large Language Models)の導入は、データ表現と分析の進歩をもたらし、医学的な質問や回答に大きく進歩した。
これらの進歩にもかかわらず、表型データ、特に臨床的文脈において重要な数値データをLCMパラダイムに組み込むことは、十分に検討されていない。
本研究では,電子健康記録(EHR)データを用いた臨床診断および予後診断におけるLLMの最後の隠れ状態からのベクトル表現の有効性について検討した。
我々は,これらの埋め込みの性能を,eXtreme Gradient Boostingのような表型データ学習に優れる従来の機械学習(ML)アルゴリズムに特徴入力として使用する際の生の数値EHRデータと比較する。
我々は, 異常な生理的データを表すため, ゼロショット環境での命令調整LDMに着目し, 特徴抽出器としての有用性を評価し, 診断, 滞在期間, 死亡率を予測するML分類器を強化した。
さらに,ゼロショットおよび少数ショットのLDM埋め込み技術を用いて,その影響を包括的に測定する手法について検討した。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競合する結果を示し、将来の医学応用研究への道のりを示唆している。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
多層構造プロンプトを用いたゼロショット/ファウショットインコンテキスト学習(ICL)のための新しい手法を開発した。
また、ユーザと大規模言語モデル(LLM)間の2つのコミュニケーションスタイルの有効性についても検討する。
本研究は,性別バイアスや偽陰性率などの診断精度とリスク要因を系統的に評価する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - Developing Healthcare Language Model Embedding Spaces [0.20971479389679337]
事前トレーニングされた大規模言語モデル(LLM)は、医療中心のテキストのようなドメイン外のデータセットに苦労することが多い。
従来のマスキング言語モデリング、Deep Contrastive Learning for Unsupervised Textual Representations(DeCLUTR)、およびヘルスケア設定からメタデータカテゴリを利用する新しい事前学習目標の3つの手法が評価されている。
対照的に訓練されたモデルは、分類タスクにおける他のアプローチよりも優れており、限られたラベル付きデータから強力なパフォーマンスを提供し、必要なモデルパラメータの更新を少なくする。
論文 参考訳(メタデータ) (2024-03-28T19:31:32Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Prompting Large Language Models for Zero-Shot Clinical Prediction with
Structured Longitudinal Electronic Health Record Data [7.815738943706123]
大規模言語モデル(LLM)は、伝統的に自然言語処理に向いている。
本研究では, GPT-4 などの LLM の EHR データへの適応性について検討する。
EHRデータの長手性、スパース性、知識を注入した性質に対応するため、本研究は特定の特徴を考慮に入れている。
論文 参考訳(メタデータ) (2024-01-25T20:14:50Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Machine Learning for Multimodal Electronic Health Records-based
Research: Challenges and Perspectives [22.230972071321357]
電子健康記録は患者の健康史に関する豊富な情報を含んでいる。
構造化されたデータに頼ることは 患者の包括的情報を反映するのに 不十分かもしれない
多くの研究が、構造化されていない自由テキストデータも取り入れることで、より正確な結果を得ようとしている。
論文 参考訳(メタデータ) (2021-11-09T01:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。