論文の概要: Generation of Synthetic Clinical Text: A Systematic Review
- arxiv url: http://arxiv.org/abs/2507.18451v1
- Date: Thu, 24 Jul 2025 14:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.810972
- Title: Generation of Synthetic Clinical Text: A Systematic Review
- Title(参考訳): 合成臨床テキストの生成 : 体系的レビュー
- Authors: Basel Alshaikhdeeb, Ahmed Abdelmonem Hemedan, Soumyabrata Ghosh, Irina Balaur, Venkata Satagopam,
- Abstract要約: 本稿では,合成医療用フリーテキストの作成について,体系的なレビューを行うことを目的とする。
我々はPubMed、ScienceDirect、Web of Science、Scoops、IEEE、Google Scholar、arXivデータベースを検索した。
我々は1,398件のうち94件の関連記事を特定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating clinical synthetic text represents an effective solution for common clinical NLP issues like sparsity and privacy. This paper aims to conduct a systematic review on generating synthetic medical free-text by formulating quantitative analysis to three research questions concerning (i) the purpose of generation, (ii) the techniques, and (iii) the evaluation methods. We searched PubMed, ScienceDirect, Web of Science, Scopus, IEEE, Google Scholar, and arXiv databases for publications associated with generating synthetic medical unstructured free-text. We have identified 94 relevant articles out of 1,398 collected ones. A great deal of attention has been given to the generation of synthetic medical text from 2018 onwards, where the main purpose of such a generation is towards text augmentation, assistive writing, corpus building, privacy-preserving, annotation, and usefulness. Transformer architectures were the main predominant technique used to generate the text, especially the GPTs. On the other hand, there were four main aspects of evaluation, including similarity, privacy, structure, and utility, where utility was the most frequent method used to assess the generated synthetic medical text. Although the generated synthetic medical text demonstrated a moderate possibility to act as real medical documents in different downstream NLP tasks, it has proven to be a great asset as augmented, complementary to the real documents, towards improving the accuracy and overcoming sparsity/undersampling issues. Yet, privacy is still a major issue behind generating synthetic medical text, where more human assessments are needed to check for the existence of any sensitive information. Despite that, advances in generating synthetic medical text will considerably accelerate the adoption of workflows and pipeline development, discarding the time-consuming legalities of data transfer.
- Abstract(参考訳): 臨床合成テキストの生成は、スパーシティやプライバシといった一般的な臨床NLP問題に対する効果的な解決策である。
本稿では,3つの研究課題に対して定量的分析を定式化することにより,合成医療自由テキストの生成に関する体系的なレビューを行うことを目的とする。
(i)世代を目的とする
(二)技法、及び
三 評価方法
我々は、合成医用非構造化自由テキストの生成に関連する出版物に対して、PubMed、ScienceDirect、Web of Science、Scoops、IEEE、Google Scholar、arXivデータベースを検索した。
我々は1,398件のうち94件の関連記事を特定した。
2018年以降、このような世代の主な目的は、テキストの増補、補助的な執筆、コーパスの構築、プライバシ保護、アノテーション、有用性である。
トランスフォーマーアーキテクチャはテキスト、特にGPTを生成する主要な技術であった。
一方, 類似性, プライバシ, 構造, ユーティリティの4つの主要な側面があり, 実用性は生成した医用テキストの評価に最も頻繁に用いられていた。
生成した合成医療用テキストは、下流のNLPタスクで実際の医療用文書として機能する可能性を適度に示しているが、精度を向上し、スパーシリティ/アンサンプリング問題を克服するために、実際の文書を補完する機能として優れた資産であることが証明されている。
しかし、プライバシーは、機密情報の存在を確認するために、より多くの人間による評価が必要な合成医療用テキストを作成する上で、依然として大きな問題である。
それにもかかわらず、合成医療用テキストの生成の進歩はワークフローやパイプライン開発の採用を著しく加速させ、データ転送の時間を要する合法性を放棄する。
関連論文リスト
- An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - A Review on Generative AI Models for Synthetic Medical Text, Time Series, and Longitudinal Data [0.3374875022248865]
本稿では3種類の合成健康記録(SHR)を作成するための実用モデルに関する新しいスコーピングレビューの結果について述べる。
52の出版物が医療時系列(22件)、縦断データ(17件)、医用テキスト(13件)を生成するための適格基準を満たした。
プライバシー保護は研究論文の主要な研究目的であり,他の目的として,クラス不均衡,データ不足,データ改ざんなどがあった。
論文 参考訳(メタデータ) (2024-11-19T06:53:54Z) - MedSyn: LLM-based Synthetic Medical Text Generation Framework [0.27376226833693]
MedSynは,大規模言語モデルと医療知識グラフを統合する新しい医用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
論文 参考訳(メタデータ) (2024-08-04T15:07:44Z) - Generative AI for Synthetic Data Across Multiple Medical Modalities: A Systematic Review of Recent Developments and Challenges [2.1835659964186087]
本稿では,様々な医療データ型を合成するための生成モデルについて,体系的に検討する。
本研究は、幅広い医療データモダリティを包含し、様々な生成モデルについて検討する。
論文 参考訳(メタデータ) (2024-06-27T14:00:11Z) - An Analysis on Large Language Models in Healthcare: A Case Study of
BioBERT [0.0]
本稿では,大規模言語モデル,特にBioBERTを医療に応用するための包括的調査を行う。
この分析は、医療領域のユニークなニーズを満たすために、BioBERTを微調整するための体系的な方法論を概説している。
本論文は、倫理的考察、特に患者のプライバシーとデータセキュリティを徹底的に検討する。
論文 参考訳(メタデータ) (2023-10-11T08:16:35Z) - The Age of Synthetic Realities: Challenges and Opportunities [85.058932103181]
我々は、有害な合成生成を識別し、それらを現実と区別することのできる法医学的手法の開発における重要な必要性を強調した。
我々の焦点は、画像、ビデオ、オーディオ、テキストなどの様々なメディアの形式にまで及んでいる。
この研究は、AI生成技術の急速な進歩と、法科学の基本原理に対する影響により、最も重要である。
論文 参考訳(メタデータ) (2023-06-09T15:55:10Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Word-level Text Highlighting of Medical Texts forTelehealth Services [0.0]
本研究の目的は,異なるテキストハイライト技術が関連する医療状況をどのように捉えることができるかを示すことである。
3つの異なる単語レベルのテキストハイライト手法を実装し評価する。
実験の結果、ニューラルネットワークアプローチは医療関連用語の強調に成功していることがわかった。
論文 参考訳(メタデータ) (2021-05-21T15:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。