Fugu-MT 論文翻訳(概要): Is larger always better? Evaluating and prompting large language models for non-generative medical tasks

論文の概要: Is larger always better? Evaluating and prompting large language models for non-generative medical tasks

arxiv url: http://arxiv.org/abs/2407.18525v1
Date: Fri, 26 Jul 2024 06:09:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 14:20:08.062555
Title: Is larger always better? Evaluating and prompting large language models for non-generative medical tasks
Title（参考訳）: 大きい方が常に良いか? -非世代医療における大規模言語モデルの評価と促進-
Authors: Yinghao Zhu, Junyi Gao, Zixiang Wang, Weibin Liao, Xiaochen Zheng, Lifang Liang, Yasha Wang, Chengwei Pan, Ewen M. Harrison, Liantao Ma,
Abstract要約: 本研究は、GPTベースのLCM、BERTベースのモデル、従来の臨床予測モデルなど、さまざまなモデルをベンチマークする。我々は,寛容と予測,疾患階層再構築,生物医学的文章マッチングといった課題に焦点をあてた。その結果, LLMは, 適切に設計されたプロンプト戦略を用いて, 構造化EHRデータに対して頑健なゼロショット予測能力を示した。構造化されていない医療用テキストでは、LLMは細調整されたBERTモデルよりも優れておらず、教師なしタスクと教師なしタスクの両方に優れていた。
参考スコア（独自算出の注目度）: 11.799956298563844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of Large Language Models (LLMs) in medicine is growing, but their ability to handle both structured Electronic Health Record (EHR) data and unstructured clinical notes is not well-studied. This study benchmarks various models, including GPT-based LLMs, BERT-based models, and traditional clinical predictive models, for non-generative medical tasks utilizing renowned datasets. We assessed 14 language models (9 GPT-based and 5 BERT-based) and 7 traditional predictive models using the MIMIC dataset (ICU patient records) and the TJH dataset (early COVID-19 EHR data), focusing on tasks such as mortality and readmission prediction, disease hierarchy reconstruction, and biomedical sentence matching, comparing both zero-shot and finetuned performance. Results indicated that LLMs exhibited robust zero-shot predictive capabilities on structured EHR data when using well-designed prompting strategies, frequently surpassing traditional models. However, for unstructured medical texts, LLMs did not outperform finetuned BERT models, which excelled in both supervised and unsupervised tasks. Consequently, while LLMs are effective for zero-shot learning on structured data, finetuned BERT models are more suitable for unstructured texts, underscoring the importance of selecting models based on specific task requirements and data characteristics to optimize the application of NLP technology in healthcare.
Abstract（参考訳）: 医学におけるLarge Language Models(LLMs)の利用は増加しているが、構造化電子健康記録(EHR)データと非構造化臨床ノートの両方を扱う能力は十分に研究されていない。本研究は、GPTベースのLCM、BERTベースのモデル、従来の臨床予測モデルを含む様々なモデルを用いて、評価されたデータセットを利用した非生成医療タスクをベンチマークする。 MIMICデータセット(ICU患者記録)とTJHデータセット(初期のCOVID-19 EHRデータ)を用いて,14の言語モデル(9GPTベース,5BERTベース)と7つの従来の予測モデルを評価し,ゼロショットと微調整の両方のパフォーマンスを比較した。その結果,LLMは構造化EHRデータに頑健なゼロショット予測能力を示し,よく設計されたプロンプト戦略を用いて,しばしば従来のモデルを上回った。しかし、構造化されていない医療用テキストでは、LLMは教師なしタスクと教師なしタスクの両方において優れた微調整されたBERTモデルよりも優れていなかった。したがって、LCMは構造化データに対するゼロショット学習に有効であるが、細調整されたBERTモデルは非構造化テキストにより適しており、NLP技術の医療への応用を最適化するために、特定のタスク要求とデータ特性に基づいてモデルを選択することの重要性を強調している。

関連論文リスト

A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T18:48:21Z)
OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文参考訳（メタデータ） (2025-10-20T13:35:12Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
AUTOCT: Automating Interpretable Clinical Trial Prediction with LLM Agents [47.640779069547534]
AutoCTは、大規模言語モデルの推論能力と古典的な機械学習の説明可能性を組み合わせた、新しいフレームワークである。臨床治験予測タスクにおいて, AutoCT は SOTA 法と同等以上の性能を示した。
論文参考訳（メタデータ） (2025-06-04T11:50:55Z)
PatientDx: Merging Large Language Models for Protecting Data-Privacy in Healthcare [2.1046377530356764]
大規模言語モデル(LLM)の微調整は、与えられたタスクにおけるモデルパフォーマンスを改善するためのデフォルトのプラクティスとなっている。 patientDxはモデルマージのフレームワークであり、患者データへの微調整や適応を必要とせずに、健康予測タスクに有効なLCMを設計できる。
論文参考訳（メタデータ） (2025-04-24T08:21:04Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Large Language Models are Powerful EHR Encoders [4.520903886487343]
ドメイン固有のEHR基盤モデルは予測精度と一般化の有望な改善を実証している。汎用大規模言語モデル(LLM)に基づく埋め込み手法をEHRエンコーダとして用いる可能性について検討する。 GTE-Qwen2-7B-Instruct と LLM2Vec-Llama3.1-8B-Instruct の2つの最新式 LLM-embedding モデルの評価を行った。
論文参考訳（メタデータ） (2025-02-24T18:30:36Z)
Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
Enhancing In-Hospital Mortality Prediction Using Multi-Representational Learning with LLM-Generated Expert Summaries [3.5508427067904864]
ICU患者の院内死亡率(IHM)予測は、時間的介入と効率的な資源配分に重要である。本研究は、構造化された生理データと臨床ノートをLarge Language Model(LLM)によって生成された専門家要約と統合し、IHM予測精度を向上させる。
論文参考訳（メタデータ） (2024-11-25T16:36:38Z)
Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。 MIMIC-IIIでは最大10.8～15.0%、MIMIC-IVでは12.6～12.7%である。
論文参考訳（メタデータ） (2024-10-06T18:46:28Z)
When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文参考訳（メタデータ） (2024-08-15T03:56:40Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
Prompting Large Language Models for Zero-Shot Clinical Prediction with Structured Longitudinal Electronic Health Record Data [7.815738943706123]
大規模言語モデル(LLM)は、伝統的に自然言語処理に向いている。本研究では, GPT-4 などの LLM の EHR データへの適応性について検討する。 EHRデータの長手性、スパース性、知識を注入した性質に対応するため、本研究は特定の特徴を考慮に入れている。
論文参考訳（メタデータ） (2024-01-25T20:14:50Z)
Natural Language Programming in Medicine: Administering Evidence Based Clinical Workflows with Autonomous Agents Powered by Generative Large Language Models [29.05425041393475]
ジェネレーティブ・大型言語モデル(LLM)は医療において大きな可能性を秘めている。本研究は, シミュレーション3次医療センターにおいて, 自律型エージェントとして機能するLSMの可能性を評価した。
論文参考訳（メタデータ） (2024-01-05T15:09:57Z)
Meta Transfer of Self-Supervised Knowledge: Foundation Model in Action for Post-Traumatic Epilepsy Prediction [0.6291443816903801]
基礎モデルに新たなトレーニング戦略を導入する。提案手法は,小規模臨床データセットのタスク性能を著しく向上することを示す。さらに, 基礎モデルの一般化性の向上を実証した。
論文参考訳（メタデータ） (2023-12-21T07:42:49Z)
TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文参考訳（メタデータ） (2023-07-19T12:35:09Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (2023-04-17T17:13:42Z)
Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。 physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文参考訳（メタデータ） (2023-02-16T05:08:34Z)
Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文参考訳（メタデータ） (2022-11-13T01:07:23Z)
Fine-Tuning Large Neural Language Models for Biomedical Natural Language Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2021-12-15T04:20:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。