論文の概要: MedSyn: LLM-based Synthetic Medical Text Generation Framework
- arxiv url: http://arxiv.org/abs/2408.02056v1
- Date: Sun, 4 Aug 2024 15:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 15:25:25.447877
- Title: MedSyn: LLM-based Synthetic Medical Text Generation Framework
- Title(参考訳): MedSyn: LLMベースの医用テキスト生成フレームワーク
- Authors: Gleb Kumichev, Pavel Blinov, Yulia Kuzkina, Vasily Goncharov, Galina Zubkova, Nikolai Zenovkin, Aleksei Goncharov, Andrey Savchenko,
- Abstract要約: MedSynは,大規模言語モデルと医療知識グラフを統合する新しい医用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
- 参考スコア(独自算出の注目度): 0.27376226833693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating synthetic text addresses the challenge of data availability in privacy-sensitive domains such as healthcare. This study explores the applicability of synthetic data in real-world medical settings. We introduce MedSyn, a novel medical text generation framework that integrates large language models with a Medical Knowledge Graph (MKG). We use MKG to sample prior medical information for the prompt and generate synthetic clinical notes with GPT-4 and fine-tuned LLaMA models. We assess the benefit of synthetic data through application in the ICD code prediction task. Our research indicates that synthetic data can increase the classification accuracy of vital and challenging codes by up to 17.8% compared to settings without synthetic data. Furthermore, to provide new data for further research in the healthcare domain, we present the largest open-source synthetic dataset of clinical notes for the Russian language, comprising over 41k samples covering 219 ICD-10 codes.
- Abstract(参考訳): 合成テキストの生成は、医療などプライバシに敏感な領域におけるデータ可用性の課題に対処する。
本研究では,実世界の医療環境における合成データの適用性について検討する。
MedSynは医療知識グラフ(MKG)と大規模言語モデルを統合する新しい医療用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
ICDコード予測タスクの応用による合成データの利点を評価する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
さらに、医療分野におけるさらなる研究のための新たなデータを提供するため、219のICD-10コードをカバーする41k以上のサンプルからなる、ロシア語の臨床ノートのオープンソース合成データセットを提示する。
関連論文リスト
- SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records [6.897301398584943]
構造化背景変数に非構造化臨床ノートをリンクする合成データセットであるSynSUMベンチマークを提案する。
このデータセットは、呼吸器疾患の領域における架空の患者との遭遇を含む1万件の人工的な患者記録で構成されている。
論文 参考訳(メタデータ) (2024-09-13T15:55:15Z) - Generative AI for Synthetic Data Across Multiple Medical Modalities: A Systematic Review of Recent Developments and Challenges [2.1835659964186087]
本稿では,様々な医療データ型を合成するための生成モデルについて,体系的に検討する。
本研究は、幅広い医療データモダリティを包含し、様々な生成モデルについて検討する。
論文 参考訳(メタデータ) (2024-06-27T14:00:11Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - Enhancing Clinical Documentation with Synthetic Data: Leveraging Generative Models for Improved Accuracy [0.0]
本稿では, 合成データ生成技術を活用した新たな臨床文書作成手法を提案する。
本稿では,GAN (Generative Adrial Networks) やVAE (variantal Autoencoders) など,最先端の生成モデルを組み合わせた方法論を提案する。
実世界のデータによく似た高品質な合成文字を生成する上で,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-03T15:49:03Z) - Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。
筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。
このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文 参考訳(メタデータ) (2024-03-13T16:17:09Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - SynerGPT: In-Context Learning for Personalized Drug Synergy Prediction
and Drug Design [64.69434941796904]
本稿では,テキスト内薬物相乗学習のための新しい設定とモデルを提案する。
特定のがん細胞標的の文脈における10~20の薬物相乗関係の「個人化データセット」を作成した。
私たちの目標は、その文脈で追加の薬物シナジー関係を予測することです。
論文 参考訳(メタデータ) (2023-06-19T17:03:46Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - BLIAM: Literature-based Data Synthesis for Synergistic Drug Combination
Prediction [13.361489059744754]
BLIAMは、下流アプリケーションに対して解釈可能で、モデルに依存しないトレーニングデータポイントを生成する。
BLIAMは、生体医学実験では測定されなかった新しい薬物や細胞株のデータポイントを合成するのにさらに用いられる。
論文 参考訳(メタデータ) (2023-02-14T06:48:52Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。