論文の概要: SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records
- arxiv url: http://arxiv.org/abs/2409.08936v1
- Date: Fri, 13 Sep 2024 15:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 15:59:55.423132
- Title: SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records
- Title(参考訳): SynSUM -- 構造化および非構造化医療記録を用いた総合ベンチマーク
- Authors: Paloma Rabaey, Henri Arno, Stefan Heytens, Thomas Demeester,
- Abstract要約: 構造化背景変数に非構造化臨床ノートをリンクする合成データセットであるSynSUMベンチマークを提案する。
このデータセットは、呼吸器疾患の領域における架空の患者との遭遇を含む1万件の人工的な患者記録で構成されている。
- 参考スコア(独自算出の注目度): 6.897301398584943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the SynSUM benchmark, a synthetic dataset linking unstructured clinical notes to structured background variables. The dataset consists of 10,000 artificial patient records containing tabular variables (like symptoms, diagnoses and underlying conditions) and related notes describing the fictional patient encounter in the domain of respiratory diseases. The tabular portion of the data is generated through a Bayesian network, where both the causal structure between the variables and the conditional probabilities are proposed by an expert based on domain knowledge. We then prompt a large language model (GPT-4o) to generate a clinical note related to this patient encounter, describing the patient symptoms and additional context. The SynSUM dataset is primarily designed to facilitate research on clinical information extraction in the presence of tabular background variables, which can be linked through domain knowledge to concepts of interest to be extracted from the text - the symptoms, in the case of SynSUM. Secondary uses include research on the automation of clinical reasoning over both tabular data and text, causal effect estimation in the presence of tabular and/or textual confounders, and multi-modal synthetic data generation. The dataset can be downloaded from https://github.com/prabaey/SynSUM.
- Abstract(参考訳): 構造化背景変数に非構造化臨床ノートをリンクする合成データセットであるSynSUMベンチマークを提案する。
このデータセットは、表型変数(症状、診断、基礎疾患など)を含む1万件の人工的な患者記録と、呼吸器疾患の領域における架空の患者との遭遇を記述した関連ノートで構成されている。
データの表部分はベイズネットワークを通じて生成され、変数と条件確率の間の因果構造はドメイン知識に基づいた専門家によって提案される。
次に,この患者に遭遇した症例の症状と追加の文脈を記述した臨床ノートを作成するために,大規模言語モデル(GPT-4o)を誘導する。
SynSUMデータセットは主に、表の背景変数の存在下で臨床情報の抽出を容易にするために設計されており、これはドメイン知識を通してテキストから抽出される関心の概念(SynSUMの場合の症状)にリンクすることができる。
二次的用途には、表型データとテキストの両方に対する臨床推論の自動化、表型および/またはテキストの共創者の存在による因果効果の推定、マルチモーダル合成データ生成などが含まれる。
データセットはhttps://github.com/prabaey/SynSUMからダウンロードできる。
関連論文リスト
- SynRL: Aligning Synthetic Clinical Trial Data with Human-preferred Clinical Endpoints Using Reinforcement Learning [23.643984146939573]
患者データ生成装置の性能向上のために強化学習を活用するSynRLを提案する。
提案手法は,生成したデータの品質を評価するためのデータ値批判機能と,データジェネレータとユーザニーズを整合させる強化学習を利用する。
論文 参考訳(メタデータ) (2024-11-11T19:19:46Z) - MedSyn: LLM-based Synthetic Medical Text Generation Framework [0.27376226833693]
MedSynは,大規模言語モデルと医療知識グラフを統合する新しい医用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
論文 参考訳(メタデータ) (2024-08-04T15:07:44Z) - T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in
Disease Progression [82.85825388788567]
我々は、ラベル付き時系列データから予測時相パターンの表現型を発見するために、新しい時間的クラスタリング手法T-Phenotypeを開発した。
T-フェノタイプは, 評価ベースラインのすべてに対して, 最良の表現型発見性能を示す。
論文 参考訳(メタデータ) (2023-02-24T13:30:35Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - Medical Scientific Table-to-Text Generation with Human-in-the-Loop under
the Data Sparsity Constraint [11.720364723821993]
効率的なテーブル・ツー・テキスト要約システムは、このデータをレポートにまとめる手作業を大幅に減らすことができる。
しかし、実際には、この問題は、正確で信頼性の高い出力を生成するための最先端の自然言語生成モデルの、データポーカリティ、データポーサリティ、および機能不全によって大きく妨げられている。
本稿では, 自動補正, コピー機構, 合成データ拡張によって強化された新しい2段階アーキテクチャを用いて, テーブル・ツー・テキスト・アプローチを提案し, それらの課題に対処する。
論文 参考訳(メタデータ) (2022-05-24T21:10:57Z) - Synthesising Electronic Health Records: Cystic Fibrosis Patient Group [3.255030588361125]
本稿では,患者電子健康記録を合成する合成データ生成機能について検討する。
本研究では, 患者結果分類のための合成データの有用性を検証し, 不均衡なデータセットを合成データで拡張する際の予測性能の向上を検証した。
論文 参考訳(メタデータ) (2022-01-14T11:35:18Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Trajectories, bifurcations and pseudotime in large clinical datasets:
applications to myocardial infarction and diabetes data [94.37521840642141]
混合データ型と欠落値を特徴とする大規模臨床データセット分析のための半教師付き方法論を提案する。
この手法は、次元の減少、データの可視化、クラスタリング、特徴の選択と、部分的に順序付けられた観測列における測地距離(擬時)の定量化のタスクを同時に扱うことのできる弾性主グラフの適用に基づいている。
論文 参考訳(メタデータ) (2020-07-07T21:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。