論文の概要: Preserving the knowledge of long clinical texts using aggregated
ensembles of large language models
- arxiv url: http://arxiv.org/abs/2311.01571v1
- Date: Thu, 2 Nov 2023 19:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:02:22.354857
- Title: Preserving the knowledge of long clinical texts using aggregated
ensembles of large language models
- Title(参考訳): 大規模言語モデルの統合アンサンブルを用いた長期臨床テキストの知識の保存
- Authors: Mohammad Junayed Hasan, Suhra Noor and Mohammad Ashrafuzzaman Khan
- Abstract要約: 臨床テキストには、様々な臨床結果予測タスクに使用できる、豊富で価値のある情報が含まれている。
BERTベースのモデルのような大きな言語モデルを臨床テキストに適用することは、2つの大きな課題をもたらす。
本稿では,大規模言語モデルの集合アンサンブルを用いて,長期臨床テキストの知識を保存するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical texts, such as admission notes, discharge summaries, and progress
notes, contain rich and valuable information that can be used for various
clinical outcome prediction tasks. However, applying large language models,
such as BERT-based models, to clinical texts poses two major challenges: the
limitation of input length and the diversity of data sources. This paper
proposes a novel method to preserve the knowledge of long clinical texts using
aggregated ensembles of large language models. Unlike previous studies which
use model ensembling or text aggregation methods separately, we combine
ensemble learning with text aggregation and train multiple large language
models on two clinical outcome tasks: mortality prediction and length of stay
prediction. We show that our method can achieve better results than baselines,
ensembling, and aggregation individually, and can improve the performance of
large language models while handling long inputs and diverse datasets. We
conduct extensive experiments on the admission notes from the MIMIC-III
clinical database by combining multiple unstructured and high-dimensional
datasets, demonstrating our method's effectiveness and superiority over
existing approaches. We also provide a comprehensive analysis and discussion of
our results, highlighting our method's applications and limitations for future
research in the domain of clinical healthcare. The results and analysis of this
study is supportive of our method assisting in clinical healthcare systems by
enabling clinical decision-making with robust performance overcoming the
challenges of long text inputs and varied datasets.
- Abstract(参考訳): 入院記、退院記、進歩記などの臨床テキストには、様々な臨床結果予測タスクに使用できる豊富で価値のある情報が含まれている。
しかし、BERTベースのモデルのような大きな言語モデルを臨床テキストに適用すると、入力長の制限とデータソースの多様性という2つの大きな課題が生じる。
本稿では, 大規模言語モデルの統合アンサンブルを用いて, 長期臨床テキストの知識を保存できる新しい手法を提案する。
モデルアンサンブル法やテキストアグリゲーション法を別々に用いた従来の研究とは異なり、アンサンブル学習をテキストアグリゲーションと組み合わせ、複数の大規模言語モデルを2つの臨床結果のタスク、すなわち死亡予測と滞在予測の長さで訓練する。
提案手法は,ベースラインやアンサンブル,アグリゲーションを個別に行うよりも優れた結果が得られ,長い入力や多様なデータセットを処理しながら,大規模言語モデルの性能を向上させることができることを示す。
本研究は,MIMIC-III 臨床データベースから,複数の非構造化データセットと高次元データセットを組み合わせ,提案手法の有効性と既存手法よりも優れていることを示す。
また,本手法の応用と臨床医療分野における今後の研究への限界を強調し,総合的な分析と考察を行った。
本研究の結果と分析は, 長文入力や多種多様なデータセットの課題を克服し, 堅牢なパフォーマンスで臨床意思決定を可能にすることで, 臨床医療システムにおける支援手法を裏付けるものである。
関連論文リスト
- Retrieving and Refining: A Hybrid Framework with Large Language Models for Rare Disease Identification [4.215595156143688]
本研究では,従来の辞書ベースの自然言語処理(NLP)ツールと大規模言語モデル(LLM)の強力な機能を組み合わせた,新しいハイブリッド手法を提案する。
異なるサイズ・領域(一般・医療)の6つの大言語モデル(LLM)における様々なプロンプト戦略を評価する。
論文 参考訳(メタデータ) (2024-05-16T20:59:28Z) - Multimodal Clinical Trial Outcome Prediction with Large Language Models [30.201189349890267]
臨床試験の結果を予測するために, LIFTED(Multimodal Mixed-of-Experts)アプローチを提案する。
LIFTEDは、異なるモダリティデータを自然言語記述に変換することで統一する。
そして、LIFTEDは統合ノイズ耐性エンコーダを構築し、モーダル固有の言語記述から情報を抽出する。
論文 参考訳(メタデータ) (2024-02-09T16:18:38Z) - Making the Most Out of the Limited Context Length: Predictive Power
Varies with Clinical Note Type and Note Section [70.37720062263176]
本研究では,高い予測力で区間を解析する枠組みを提案する。
MIMIC-IIIを用いて,(1)看護用音符と退院用音符とでは予測電力分布が異なること,(2)文脈長が大きい場合の音符の組み合わせにより性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-13T20:04:05Z) - ClinicalGPT: Large Language Models Finetuned with Diverse Medical Data
and Comprehensive Evaluation [5.690250818139763]
大規模言語モデルは、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
これらの進歩にもかかわらず、実際の不正確さ、推論能力、現実世界の経験の基盤の欠如など、医学的応用におけるその効果は限られている。
臨床シナリオに対して明示的に設計・最適化された言語モデルである臨床GPTを提案する。
論文 参考訳(メタデータ) (2023-06-16T16:56:32Z) - Leveraging text data for causal inference using electronic health records [1.4182510510164876]
本稿では,電子健康データによる因果推論を支援するためにテキストデータを活用する統一的なフレームワークを提案する。
従来のマッチング分析にテキストデータを組み込むことで、推定処理効果の妥当性を高めることができることを示す。
これらの手法は、臨床データの二次解析範囲を、構造化ERHデータに制限された領域にまで広げる可能性があると考えている。
論文 参考訳(メタデータ) (2023-06-09T16:06:02Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Multi-View Joint Learning Framework for Embedding Clinical Codes and
Text Using Graph Neural Networks [23.06795121693656]
我々は,テキストの可用性と前方性,およびICDコードの性能向上を両立させるため,コードとテキストから学習するフレームワークを提案する。
我々のアプローチでは、ICDコードを処理するグラフニューラルネットワーク(GNN)と、テキストを処理するBi-LSTMを用いています。
計画された外科手術用テキストを用いた実験では,BERTモデルが臨床データに微調整されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T09:19:03Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。