論文の概要: Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records
- arxiv url: http://arxiv.org/abs/2403.08664v2
- Date: Thu, 14 Mar 2024 15:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 00:51:27.969122
- Title: Zero-shot and Few-shot Generation Strategies for Artificial Clinical Records
- Title(参考訳): 人工臨床記録のためのゼロショット・ファウショット生成法
- Authors: Erlend Frayling, Jake Lever, Graham McDonald,
- Abstract要約: 本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。
筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。
このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
- 参考スコア(独自算出の注目度): 1.338174941551702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenge of accessing historical patient data for clinical research, while adhering to privacy regulations, is a significant obstacle in medical science. An innovative approach to circumvent this issue involves utilising synthetic medical records that mirror real patient data without compromising individual privacy. The creation of these synthetic datasets, particularly without using actual patient data to train Large Language Models (LLMs), presents a novel solution as gaining access to sensitive patient information to train models is also a challenge. This study assesses the capability of the Llama 2 LLM to create synthetic medical records that accurately reflect real patient information, employing zero-shot and few-shot prompting strategies for comparison against fine-tuned methodologies that do require sensitive patient data during training. We focus on generating synthetic narratives for the History of Present Illness section, utilising data from the MIMIC-IV dataset for comparison. In this work introduce a novel prompting technique that leverages a chain-of-thought approach, enhancing the model's ability to generate more accurate and contextually relevant medical narratives without prior fine-tuning. Our findings suggest that this chain-of-thought prompted approach allows the zero-shot model to achieve results on par with those of fine-tuned models, based on Rouge metrics evaluation.
- Abstract(参考訳): 臨床研究のために歴史的患者データにアクセスするという課題は、プライバシ規制に固執する一方で、医学において大きな障害となっている。
この問題を回避するための革新的なアプローチは、個々のプライバシを損なうことなく、実際の患者データをミラーする合成医療記録を利用することである。
これらの合成データセットの作成、特にLarge Language Models(LLMs)のトレーニングに実際の患者データを使用しない場合、モデルのトレーニングにセンシティブな患者情報にアクセスするという新しいソリューションも課題である。
本研究は,Llama 2 LLMが患者情報を正確に反映した合成医療記録を作成する能力を評価するものである。
筆者らは,MIMIC-IVデータセットから得られたデータを用いて,現在史の物語を生成することに重点を置いている。
この研究は、チェーン・オブ・シント・アプローチを活用する新しいプロンプト技術を導入し、より正確で文脈的に関連する医療物語を事前の微調整なしに生成する能力を高める。
このチェーン・オブ・シークレットのアプローチにより、ゼロショットモデルが、ルージュのメトリクス評価に基づいて、微調整されたモデルと同等の結果が得られることが示唆された。
関連論文リスト
- Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - Image Distillation for Safe Data Sharing in Histopathology [10.398266052019675]
病理組織学は、臨床医が正確な診断を行い、疾患の予後を判断し、適切な治療戦略を立案するのに役立つ。
深層学習技術が医療分野で成功していることが証明されるにつれ、主な課題はデータ可用性の制限とデータ共有とプライバシに関する懸念である。
私たちは、制約なしに共有できる必須情報をカプセル化する小さな合成データセットを作成します。
我々は,潜在拡散モデルを訓練し,少数の可読性合成画像を用いた新しい蒸留合成データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T13:19:08Z) - Unconditional Latent Diffusion Models Memorize Patient Imaging Data: Implications for Openly Sharing Synthetic Data [2.1375651880073834]
生成型AIモデルは、オープンデータの共有を容易にするために注目を集めている。
これらのモデルは、新規な合成サンプルの代わりに患者データコピーを生成する。
我々は,合成データ生成のためのCT,MR,X線データセット上で2次元および3次元潜時拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-02-01T22:58:21Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Practical Challenges in Differentially-Private Federated Survival
Analysis of Medical Data [57.19441629270029]
本稿では,ニューラルネットワークの本質的特性を活用し,生存分析モデルの訓練過程を関連づける。
小さな医療データセットと少数のデータセンターの現実的な設定では、このノイズはモデルを収束させるのが難しくなります。
DPFed-post は,私的フェデレート学習方式に後処理の段階を追加する。
論文 参考訳(メタデータ) (2022-02-08T10:03:24Z) - FLOP: Federated Learning on Medical Datasets using Partial Networks [84.54663831520853]
新型コロナウイルスの感染拡大で医療資源が不足している。
新型コロナウイルスの診断を緩和するために、さまざまなデータ駆動型ディープラーニングモデルが開発されている。
患者のプライバシー上の懸念から、データそのものはまだ乏しい。
我々は、textbfPartial Networks (FLOP) を用いた、シンプルで効果的な textbfFederated textbfL textbfon Medical データセットを提案する。
論文 参考訳(メタデータ) (2021-02-10T01:56:58Z) - Longitudinal modeling of MS patient trajectories improves predictions of
disability progression [2.117653457384462]
本研究は, 実世界の患者データから情報を最適に抽出する作業に対処する。
本研究では,患者軌跡モデリングに適した機械学習手法を用いることで,患者の障害進行を2年間の地平線で予測できることを示す。
文献で利用可能なモデルと比較して、この研究はMS病の進行予測に最も完全な患者履歴を使用する。
論文 参考訳(メタデータ) (2020-11-09T20:48:00Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。