論文の概要: Synthetic4Health: Generating Annotated Synthetic Clinical Letters
- arxiv url: http://arxiv.org/abs/2409.09501v1
- Date: Sat, 14 Sep 2024 18:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:27:38.585466
- Title: Synthetic4Health: Generating Annotated Synthetic Clinical Letters
- Title(参考訳): Synthetic4Health: Annotated Synthetic Clinical Lettersの作成
- Authors: Libo Ren, Samuel Belkadi, Lifeng Han, Warren Del-Pinto, Goran Nenadic,
- Abstract要約: 臨床手紙には機密情報が含まれているため、モデルトレーニング、医学研究、教育には臨床関連データセットが広く適用できない。
本研究は, 信頼性, 各種, 未同定の総合臨床書面を生成することを目的としている。
- 参考スコア(独自算出の注目度): 6.822926897514792
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Since clinical letters contain sensitive information, clinical-related datasets can not be widely applied in model training, medical research, and teaching. This work aims to generate reliable, various, and de-identified synthetic clinical letters. To achieve this goal, we explored different pre-trained language models (PLMs) for masking and generating text. After that, we worked on Bio\_ClinicalBERT, a high-performing model, and experimented with different masking strategies. Both qualitative and quantitative methods were used for evaluation. Additionally, a downstream task, Named Entity Recognition (NER), was also implemented to assess the usability of these synthetic letters. The results indicate that 1) encoder-only models outperform encoder-decoder models. 2) Among encoder-only models, those trained on general corpora perform comparably to those trained on clinical data when clinical information is preserved. 3) Additionally, preserving clinical entities and document structure better aligns with our objectives than simply fine-tuning the model. 4) Furthermore, different masking strategies can impact the quality of synthetic clinical letters. Masking stopwords has a positive impact, while masking nouns or verbs has a negative effect. 5) For evaluation, BERTScore should be the primary quantitative evaluation metric, with other metrics serving as supplementary references. 6) Contextual information does not significantly impact the models' understanding, so the synthetic clinical letters have the potential to replace the original ones in downstream tasks.
- Abstract(参考訳): 臨床手紙には機密情報が含まれているため、モデルトレーニング、医学研究、教育には臨床関連データセットが広く適用できない。
本研究は, 信頼性, 各種, 未同定の総合臨床書面を生成することを目的としている。
この目的を達成するために、マスキングとテキスト生成のための様々な事前学習言語モデル(PLM)を探索した。
その後、ハイパフォーマンスモデルであるBio\_ClinicalBERTを開発し、異なるマスキング戦略の実験を行った。
定性的手法と定量的手法の両方が評価に用いられた。
さらに、これらの合成文字のユーザビリティを評価するために、ダウンストリームタスクである Named Entity Recognition (NER) も実装された。
その結果は
1)エンコーダのみのモデルはエンコーダ-デコーダモデルより優れている。
2) エンコーダのみのモデルでは, 臨床情報を保存した場合に, 一般コーパスで訓練したモデルと臨床データで訓練したモデルとを比較検討した。
3) 臨床組織と文書構造の保存は, 単にモデルを微調整するよりは, 目的と整合する方がよい。
4) 異なるマスキング戦略が臨床用文字の質に影響を及ぼす可能性がある。
マスキングの停止語は肯定的な影響を持ち、マスキングの名詞や動詞は否定的な効果を持つ。
5)評価のためには,BERTScoreが主要な量的評価基準であり,その他の指標が補助的基準として機能するべきである。
6) 文脈情報はモデルの理解に大きく影響しないため, 合成臨床書面は, 下流作業における元の書面を置き換える可能性を秘めている。
関連論文リスト
- Efficient Biomedical Entity Linking: Clinical Text Standardization with Low-Resource Techniques [0.0]
複数の用語は、臨床エンティティと呼ばれることができる同じコア概念を参照することができる。
UMLS(Unified Medical Language System)のようなオントロジーは、何百万もの臨床エンティティを格納するために開発・維持されている。
そこで本稿では,エンティティの曖昧さを解消するために,コンテキストベースとコンテキストレスの省力化手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T01:14:33Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes [11.106831545858656]
バイオメディカル文献から抽出した公開症例報告を用いて, 大規模臨床記録を合成する。
次に、これらの合成ノートを使用して、専門的な臨床大言語モデルであるAsclepiusを訓練します。
我々は、GPT-3.5-turboや他のオープンソースの代替品を含む、いくつかの大きな言語モデルに対してAsclepiusをベンチマークした。
論文 参考訳(メタデータ) (2023-09-01T04:01:20Z) - Hierarchical Pretraining for Biomedical Term Embeddings [4.69793648771741]
階層データに基づく新しいバイオメディカル用語表現モデルであるHiPrBERTを提案する。
HiPrBERTは階層的な情報からペアワイズ距離を効果的に学習し,さらにバイオメディカルな応用に極めて有用な埋め込みを実現できることを示す。
論文 参考訳(メタデータ) (2023-07-01T08:16:00Z) - Applying unsupervised keyphrase methods on concepts extracted from
discharge sheets [7.102620843620572]
各内容が記録されている部分を特定し、また、臨床テキストから意味を抽出するための重要な概念を特定する必要がある。
本研究では,臨床自然言語処理技術を用いて,これらの課題に対処した。
一般的な教師なしキーフレーズ抽出手法が検証され,評価されている。
論文 参考訳(メタデータ) (2023-03-15T20:55:25Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Improving the Factual Accuracy of Abstractive Clinical Text
Summarization using Multi-Objective Optimization [3.977582258550673]
本稿では,知識誘導多目的最適化を用いた臨床テキストの抽象的要約の事実的精度向上のためのフレームワークを提案する。
本研究では,知識誘導多目的最適化を用いた臨床テキストの抽象的要約の事実的精度向上のための枠組みを提案する。
論文 参考訳(メタデータ) (2022-04-02T07:59:28Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。