論文の概要: Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes
- arxiv url: http://arxiv.org/abs/2309.00237v3
- Date: Thu, 13 Jun 2024 05:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-15 02:29:06.750517
- Title: Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes
- Title(参考訳): 臨床ノートを用いた公開共有型臨床大言語モデル
- Authors: Sunjun Kweon, Junu Kim, Jiyoun Kim, Sujeong Im, Eunbyeol Cho, Seongsu Bae, Jungwoo Oh, Gyubok Lee, Jong Hak Moon, Seng Chan You, Seungjin Baek, Chang Hoon Han, Yoon Bin Jung, Yohan Jo, Edward Choi,
- Abstract要約: バイオメディカル文献から抽出した公開症例報告を用いて, 大規模臨床記録を合成する。
次に、これらの合成ノートを使用して、専門的な臨床大言語モデルであるAsclepiusを訓練します。
我々は、GPT-3.5-turboや他のオープンソースの代替品を含む、いくつかの大きな言語モデルに対してAsclepiusをベンチマークした。
- 参考スコア(独自算出の注目度): 11.106831545858656
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The development of large language models tailored for handling patients' clinical notes is often hindered by the limited accessibility and usability of these notes due to strict privacy regulations. To address these challenges, we first create synthetic large-scale clinical notes using publicly available case reports extracted from biomedical literature. We then use these synthetic notes to train our specialized clinical large language model, Asclepius. While Asclepius is trained on synthetic data, we assess its potential performance in real-world applications by evaluating it using real clinical notes. We benchmark Asclepius against several other large language models, including GPT-3.5-turbo and other open-source alternatives. To further validate our approach using synthetic notes, we also compare Asclepius with its variants trained on real clinical notes. Our findings convincingly demonstrate that synthetic clinical notes can serve as viable substitutes for real ones when constructing high-performing clinical language models. This conclusion is supported by detailed evaluations conducted by both GPT-4 and medical professionals. All resources including weights, codes, and data used in the development of Asclepius are made publicly accessible for future research. (https://github.com/starmpcc/Asclepius)
- Abstract(参考訳): 患者の臨床ノートを扱うために設計された大規模言語モデルの開発は、厳格なプライバシー規制のために、これらのノートのアクセシビリティとユーザビリティの制限によって、しばしば妨げられる。
これらの課題に対処するために,バイオメディカル文献から抽出した公開事例報告を用いて,まず大規模な臨床ノートを作成する。
次に、これらの合成ノートを使用して、専門的な臨床大言語モデルであるAsclepiusを訓練します。
Asclepiusは、合成データに基づいて訓練されているが、実際の臨床記録を用いて、実際の応用における潜在的な性能を評価する。
我々は、GPT-3.5-turboや他のオープンソースの代替品を含む、いくつかの大きな言語モデルに対してAsclepiusをベンチマークした。
合成ノートを用いたアプローチをさらに検証するため,Asclepiusを実際の臨床ノートで訓練した変種と比較した。
本研究は, ハイパフォーマンスな臨床言語モデルを構築する際に, 実物の代用として有効であることを示すものである。
この結論は、GPT-4と医療専門家の双方による詳細な評価によって裏付けられている。
アスクレピウスの開発に使用される重み、コード、データを含む全ての資源は、将来の研究のために一般に公開されている。
(https://github.com/starmpcc/Asclepius)
関連論文リスト
- Synthetic4Health: Generating Annotated Synthetic Clinical Letters [6.822926897514792]
臨床手紙には機密情報が含まれているため、モデルトレーニング、医学研究、教育には臨床関連データセットが広く適用できない。
本研究は, 信頼性, 各種, 未同定の総合臨床書面を生成することを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:15:07Z) - De-identification is not always enough [9.292345527034348]
本研究は, 実際の臨床記録の同定が, 会員推測攻撃から記録を保護していないことを示す。
合成されたノートが実際のデータのパフォーマンスと密接に一致する場合、それらは実際のデータと同じようなプライバシー上の懸念を示す。
論文 参考訳(メタデータ) (2024-01-31T21:14:01Z) - Dynamic Q&A of Clinical Documents with Large Language Models [3.021316686584699]
本研究は,臨床ノートにおける動的質問応答のための大規模言語モデル(LLM)を用いた自然言語インタフェースを提案する。
様々な埋め込みモデルと高度なLLMを利用する実験は、高い計算要求にもかかわらず、ウィザード・ヴィクナの優れた精度を示している。
論文 参考訳(メタデータ) (2024-01-19T14:50:22Z) - Investigating Alternative Feature Extraction Pipelines For Clinical Note
Phenotyping [0.0]
医療属性の抽出に計算システムを用いると、多くの応用が期待できる。
BERTベースのモデルは、臨床ノートを一連の表現に変換するために使用することができる。
そこで本研究では,ScispaCyNeumannを用いた代替パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-05T02:51:51Z) - Making the Most Out of the Limited Context Length: Predictive Power
Varies with Clinical Note Type and Note Section [70.37720062263176]
本研究では,高い予測力で区間を解析する枠組みを提案する。
MIMIC-IIIを用いて,(1)看護用音符と退院用音符とでは予測電力分布が異なること,(2)文脈長が大きい場合の音符の組み合わせにより性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-13T20:04:05Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Assessing mortality prediction through different representation models
based on concepts extracted from clinical notes [2.707154152696381]
埋め込みの学習は、音符をそれに匹敵する形式に変換する方法である。
トランスフォーマーベースの表現モデルは、最近大きな飛躍を遂げた。
病院死亡予測の課題において,学習した埋め込みベクターの有用性を評価する実験を行った。
論文 参考訳(メタデータ) (2022-07-22T04:34:33Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。