論文の概要: SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records
- arxiv url: http://arxiv.org/abs/2409.08936v1
- Date: Fri, 13 Sep 2024 15:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-16 15:59:55.423132
- Title: SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records
- Title(参考訳): SynSUM -- 構造化および非構造化医療記録を用いた総合ベンチマーク
- Authors: Paloma Rabaey, Henri Arno, Stefan Heytens, Thomas Demeester,
- Abstract要約: 構造化背景変数に非構造化臨床ノートをリンクする合成データセットであるSynSUMベンチマークを提案する。
このデータセットは、呼吸器疾患の領域における架空の患者との遭遇を含む1万件の人工的な患者記録で構成されている。
- 参考スコア(独自算出の注目度): 6.897301398584943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the SynSUM benchmark, a synthetic dataset linking unstructured clinical notes to structured background variables. The dataset consists of 10,000 artificial patient records containing tabular variables (like symptoms, diagnoses and underlying conditions) and related notes describing the fictional patient encounter in the domain of respiratory diseases. The tabular portion of the data is generated through a Bayesian network, where both the causal structure between the variables and the conditional probabilities are proposed by an expert based on domain knowledge. We then prompt a large language model (GPT-4o) to generate a clinical note related to this patient encounter, describing the patient symptoms and additional context. The SynSUM dataset is primarily designed to facilitate research on clinical information extraction in the presence of tabular background variables, which can be linked through domain knowledge to concepts of interest to be extracted from the text - the symptoms, in the case of SynSUM. Secondary uses include research on the automation of clinical reasoning over both tabular data and text, causal effect estimation in the presence of tabular and/or textual confounders, and multi-modal synthetic data generation. The dataset can be downloaded from https://github.com/prabaey/SynSUM.
- Abstract(参考訳): 構造化背景変数に非構造化臨床ノートをリンクする合成データセットであるSynSUMベンチマークを提案する。
このデータセットは、表型変数(症状、診断、基礎疾患など)を含む1万件の人工的な患者記録と、呼吸器疾患の領域における架空の患者との遭遇を記述した関連ノートで構成されている。
データの表部分はベイズネットワークを通じて生成され、変数と条件確率の間の因果構造はドメイン知識に基づいた専門家によって提案される。
次に,この患者に遭遇した症例の症状と追加の文脈を記述した臨床ノートを作成するために,大規模言語モデル(GPT-4o)を誘導する。
SynSUMデータセットは主に、表の背景変数の存在下で臨床情報の抽出を容易にするために設計されており、これはドメイン知識を通してテキストから抽出される関心の概念(SynSUMの場合の症状)にリンクすることができる。
二次的用途には、表型データとテキストの両方に対する臨床推論の自動化、表型および/またはテキストの共創者の存在による因果効果の推定、マルチモーダル合成データ生成などが含まれる。
データセットはhttps://github.com/prabaey/SynSUMからダウンロードできる。
関連論文リスト
- An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - SynRL: Aligning Synthetic Clinical Trial Data with Human-preferred Clinical Endpoints Using Reinforcement Learning [23.643984146939573]
患者データ生成装置の性能向上のために強化学習を活用するSynRLを提案する。
提案手法は,生成したデータの品質を評価するためのデータ値批判機能と,データジェネレータとユーザニーズを整合させる強化学習を利用する。
論文 参考訳(メタデータ) (2024-11-11T19:19:46Z) - MedSyn: LLM-based Synthetic Medical Text Generation Framework [0.27376226833693]
MedSynは,大規模言語モデルと医療知識グラフを統合する新しい医用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
論文 参考訳(メタデータ) (2024-08-04T15:07:44Z) - Leveraging text data for causal inference using electronic health records [1.4182510510164876]
本稿では,電子健康データによる因果推論を支援するためにテキストデータを活用する統一的なフレームワークを提案する。
従来のマッチング分析にテキストデータを組み込むことで、推定処理効果の妥当性を高めることができることを示す。
これらの手法は、臨床データの二次解析範囲を、構造化ERHデータに制限された領域にまで広げる可能性があると考えている。
論文 参考訳(メタデータ) (2023-06-09T16:06:02Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in
Disease Progression [82.85825388788567]
我々は、ラベル付き時系列データから予測時相パターンの表現型を発見するために、新しい時間的クラスタリング手法T-Phenotypeを開発した。
T-フェノタイプは, 評価ベースラインのすべてに対して, 最良の表現型発見性能を示す。
論文 参考訳(メタデータ) (2023-02-24T13:30:35Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - Medical Scientific Table-to-Text Generation with Human-in-the-Loop under
the Data Sparsity Constraint [11.720364723821993]
効率的なテーブル・ツー・テキスト要約システムは、このデータをレポートにまとめる手作業を大幅に減らすことができる。
しかし、実際には、この問題は、正確で信頼性の高い出力を生成するための最先端の自然言語生成モデルの、データポーカリティ、データポーサリティ、および機能不全によって大きく妨げられている。
本稿では, 自動補正, コピー機構, 合成データ拡張によって強化された新しい2段階アーキテクチャを用いて, テーブル・ツー・テキスト・アプローチを提案し, それらの課題に対処する。
論文 参考訳(メタデータ) (2022-05-24T21:10:57Z) - Synthesising Electronic Health Records: Cystic Fibrosis Patient Group [3.255030588361125]
本稿では,患者電子健康記録を合成する合成データ生成機能について検討する。
本研究では, 患者結果分類のための合成データの有用性を検証し, 不均衡なデータセットを合成データで拡張する際の予測性能の向上を検証した。
論文 参考訳(メタデータ) (2022-01-14T11:35:18Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Drug and Disease Interpretation Learning with Biomedical Entity
Representation Transformer [9.152161078854146]
自由形式のテキストにおける概念正規化は、あらゆるテキストマイニングパイプラインにおいて重要なステップです。
微調整BERTアーキテクチャに基づくシンプルで効果的な2段階のニューラルアプローチを提案する。
論文 参考訳(メタデータ) (2021-01-22T20:01:25Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Trajectories, bifurcations and pseudotime in large clinical datasets:
applications to myocardial infarction and diabetes data [94.37521840642141]
混合データ型と欠落値を特徴とする大規模臨床データセット分析のための半教師付き方法論を提案する。
この手法は、次元の減少、データの可視化、クラスタリング、特徴の選択と、部分的に順序付けられた観測列における測地距離(擬時)の定量化のタスクを同時に扱うことのできる弾性主グラフの適用に基づいている。
論文 参考訳(メタデータ) (2020-07-07T21:04:55Z) - Knowledge-guided Text Structuring in Clinical Trials [0.38073142980733]
本稿では,知識ベースを自動生成する知識誘導型テキスト構造化フレームワークを提案する。
実験結果から,本手法は全体の高精度化とリコールが可能であることが示唆された。
論文 参考訳(メタデータ) (2019-12-28T01:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。