論文の概要: MedSyn: LLM-based Synthetic Medical Text Generation Framework
- arxiv url: http://arxiv.org/abs/2408.02056v1
- Date: Sun, 4 Aug 2024 15:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 15:25:25.447877
- Title: MedSyn: LLM-based Synthetic Medical Text Generation Framework
- Title(参考訳): MedSyn: LLMベースの医用テキスト生成フレームワーク
- Authors: Gleb Kumichev, Pavel Blinov, Yulia Kuzkina, Vasily Goncharov, Galina Zubkova, Nikolai Zenovkin, Aleksei Goncharov, Andrey Savchenko,
- Abstract要約: MedSynは,大規模言語モデルと医療知識グラフを統合する新しい医用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
- 参考スコア(独自算出の注目度): 0.27376226833693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating synthetic text addresses the challenge of data availability in privacy-sensitive domains such as healthcare. This study explores the applicability of synthetic data in real-world medical settings. We introduce MedSyn, a novel medical text generation framework that integrates large language models with a Medical Knowledge Graph (MKG). We use MKG to sample prior medical information for the prompt and generate synthetic clinical notes with GPT-4 and fine-tuned LLaMA models. We assess the benefit of synthetic data through application in the ICD code prediction task. Our research indicates that synthetic data can increase the classification accuracy of vital and challenging codes by up to 17.8% compared to settings without synthetic data. Furthermore, to provide new data for further research in the healthcare domain, we present the largest open-source synthetic dataset of clinical notes for the Russian language, comprising over 41k samples covering 219 ICD-10 codes.
- Abstract(参考訳): 合成テキストの生成は、医療などプライバシに敏感な領域におけるデータ可用性の課題に対処する。
本研究では,実世界の医療環境における合成データの適用性について検討する。
MedSynは医療知識グラフ(MKG)と大規模言語モデルを統合する新しい医療用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
ICDコード予測タスクの応用による合成データの利点を評価する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
さらに、医療分野におけるさらなる研究のための新たなデータを提供するため、219のICD-10コードをカバーする41k以上のサンプルからなる、ロシア語の臨床ノートのオープンソース合成データセットを提示する。
関連論文リスト
- Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation [79.71072337496351]
CoSynは、合成テキストリッチマルチモーダルデータを作成するフレームワークである。
高品質な命令チューニングデータを生成することができる。
また、合成ポインティングデータを生成し、視覚言語モデルで入力画像内の情報をグラウンドできる。
論文 参考訳(メタデータ) (2025-02-20T18:55:30Z) - DermaSynth: Rich Synthetic Image-Text Pairs Using Open Access Dermatology Datasets [0.9365295908188248]
Derma Synthは、45,205の画像からキュレートされた92,020の合成画像-テキストペアのデータセットである。
Gemini 2.0を用いた最先端の視覚大言語モデルを利用して、多種多様なリッチな合成テキストを生成する。
論文 参考訳(メタデータ) (2025-01-31T22:26:33Z) - An Integrated Approach to AI-Generated Content in e-health [0.0]
合成医用画像とテキストデータを生成するためのエンドツーエンドのクラス条件付きフレームワークを提案する。
我々のフレームワークはDiffusion and Large Language Models(LLM)を統合し、現実世界のパターンによくマッチするデータを生成する。
論文 参考訳(メタデータ) (2025-01-18T14:35:29Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Generative AI for Synthetic Data Across Multiple Medical Modalities: A Systematic Review of Recent Developments and Challenges [2.1835659964186087]
本稿では,様々な医療データ型を合成するための生成モデルについて,体系的に検討する。
本研究は、幅広い医療データモダリティを包含し、様々な生成モデルについて検討する。
論文 参考訳(メタデータ) (2024-06-27T14:00:11Z) - Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records [1.338174941551702]
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。
筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。
このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
論文 参考訳(メタデータ) (2024-03-13T16:17:09Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - SynerGPT: In-Context Learning for Personalized Drug Synergy Prediction
and Drug Design [64.69434941796904]
本稿では,テキスト内薬物相乗学習のための新しい設定とモデルを提案する。
特定のがん細胞標的の文脈における10~20の薬物相乗関係の「個人化データセット」を作成した。
私たちの目標は、その文脈で追加の薬物シナジー関係を予測することです。
論文 参考訳(メタデータ) (2023-06-19T17:03:46Z) - BLIAM: Literature-based Data Synthesis for Synergistic Drug Combination
Prediction [13.361489059744754]
BLIAMは、下流アプリケーションに対して解釈可能で、モデルに依存しないトレーニングデータポイントを生成する。
BLIAMは、生体医学実験では測定されなかった新しい薬物や細胞株のデータポイントを合成するのにさらに用いられる。
論文 参考訳(メタデータ) (2023-02-14T06:48:52Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。