論文の概要: Clinical Text Deduplication Practices for Efficient Pretraining and
Improved Clinical Tasks
- arxiv url: http://arxiv.org/abs/2312.09469v1
- Date: Fri, 29 Sep 2023 18:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:58:04.157449
- Title: Clinical Text Deduplication Practices for Efficient Pretraining and
Improved Clinical Tasks
- Title(参考訳): 効果的な事前訓練と改善のための臨床テキスト重複の実践
- Authors: Isotta Landi, Eugenia Alleva, Alissa A. Valentine, Lauren A. Lepow,
Alexander W. Charney
- Abstract要約: 本報告では, 共通書記法と臨床関連性から生じる重複の微細な特徴について述べる。
臨床テキストの重複化は,より効率的な冗長な情報の符号化に有効であることを示す。
- 参考スコア(独自算出の注目度): 39.65514468447604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite being a unique source of information on patients' status and disease
progression, clinical notes are characterized by high levels of duplication and
information redundancy. In general domain text, it has been shown that
deduplication does not harm language model (LM) pretraining, thus helping
reduce the training cost. Although large LMs have proven to learn medical
knowledge, they still require specialized domain adaptation for improved
downstream clinical tasks. By leveraging large real-world clinical corpora, we
first provided a fine-grained characterization of duplicates stemming from
common writing practices and clinical relevancy. Second, we demonstrated that
deduplicating clinical text can help clinical LMs encode less redundant
information in a more efficient manner and do not harm classification tasks via
prompt-based learning.
- Abstract(参考訳): 患者の地位や疾患の進行に関するユニークな情報源であるにもかかわらず、臨床ノートは高い重複度と情報冗長性によって特徴づけられる。
一般のドメインテキストでは、重複が言語モデル(LM)の事前訓練を損なわないことが示されており、トレーニングコストの削減に寄与している。
大きなlmmは医学的知識を学べることが証明されているが、下流の臨床タスクを改善するために特別なドメイン適応が必要である。
実世界の臨床コーパスを利用して, 一般的な筆記法と臨床関連性から生じる複製の微細な評価を行った。
第2に, 臨床テキストの重複化は, 少ない冗長情報をより効率的な方法で符号化し, 即時学習による分類作業に支障を来さないことを実証した。
関連論文リスト
- DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization [13.038800602897354]
本研究は, 大規模言語モデルを用いて患者を同定し, 臨床記録の再検討を行った。
本手法は, 臨床診断書に適合する患者を同定するために, 大規模言語モデルを用いている。
ClinicalBERTが最も有効であり, マスキングでPIIが同定できたが, 臨床記録の9%は再同定された。
論文 参考訳(メタデータ) (2024-10-22T14:06:31Z) - Harmonising the Clinical Melody: Tuning Large Language Models for Hospital Course Summarisation in Clinical Coding [5.279406017862076]
病院のコースをまとめることの課題は、さらなる研究と開発のためのオープンな領域のままである。
Llama 3, BioMistral, Mistral Instruct v0.1 の3種類のプレトレーニング LLM を病院コース要約作業に適用した。
臨床領域の微調整の有効性を評価するため,BERTScoreおよびROUGE測定値を用いて微調整モデルの評価を行った。
論文 参考訳(メタデータ) (2024-09-23T00:35:23Z) - Keyword-optimized Template Insertion for Clinical Information Extraction
via Prompt-based Learning [0.2939632869678985]
臨床ノートのためのキーワード最適化テンプレート挿入法(KOTI)を開発した。
ゼロショットおよび少数ショットのトレーニング環境では,いくつかの臨床課題におけるパフォーマンス向上の方法を示す。
論文 参考訳(メタデータ) (2023-10-31T00:07:11Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Improving the Factual Accuracy of Abstractive Clinical Text
Summarization using Multi-Objective Optimization [3.977582258550673]
本稿では,知識誘導多目的最適化を用いた臨床テキストの抽象的要約の事実的精度向上のためのフレームワークを提案する。
本研究では,知識誘導多目的最適化を用いた臨床テキストの抽象的要約の事実的精度向上のための枠組みを提案する。
論文 参考訳(メタデータ) (2022-04-02T07:59:28Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。