Fugu-MT 論文翻訳(概要): SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records

論文の概要: SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records

arxiv url: http://arxiv.org/abs/2409.08936v1
Date: Fri, 13 Sep 2024 15:55:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 15:59:55.423132
Title: SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records
Title（参考訳）: SynSUM -- 構造化および非構造化医療記録を用いた総合ベンチマーク
Authors: Paloma Rabaey, Henri Arno, Stefan Heytens, Thomas Demeester,
Abstract要約: 構造化背景変数に非構造化臨床ノートをリンクする合成データセットであるSynSUMベンチマークを提案する。このデータセットは、呼吸器疾患の領域における架空の患者との遭遇を含む1万件の人工的な患者記録で構成されている。
参考スコア（独自算出の注目度）: 6.897301398584943
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the SynSUM benchmark, a synthetic dataset linking unstructured clinical notes to structured background variables. The dataset consists of 10,000 artificial patient records containing tabular variables (like symptoms, diagnoses and underlying conditions) and related notes describing the fictional patient encounter in the domain of respiratory diseases. The tabular portion of the data is generated through a Bayesian network, where both the causal structure between the variables and the conditional probabilities are proposed by an expert based on domain knowledge. We then prompt a large language model (GPT-4o) to generate a clinical note related to this patient encounter, describing the patient symptoms and additional context. The SynSUM dataset is primarily designed to facilitate research on clinical information extraction in the presence of tabular background variables, which can be linked through domain knowledge to concepts of interest to be extracted from the text - the symptoms, in the case of SynSUM. Secondary uses include research on the automation of clinical reasoning over both tabular data and text, causal effect estimation in the presence of tabular and/or textual confounders, and multi-modal synthetic data generation. The dataset can be downloaded from https://github.com/prabaey/SynSUM.
Abstract（参考訳）: 構造化背景変数に非構造化臨床ノートをリンクする合成データセットであるSynSUMベンチマークを提案する。このデータセットは、表型変数(症状、診断、基礎疾患など)を含む1万件の人工的な患者記録と、呼吸器疾患の領域における架空の患者との遭遇を記述した関連ノートで構成されている。データの表部分はベイズネットワークを通じて生成され、変数と条件確率の間の因果構造はドメイン知識に基づいた専門家によって提案される。次に,この患者に遭遇した症例の症状と追加の文脈を記述した臨床ノートを作成するために,大規模言語モデル(GPT-4o)を誘導する。 SynSUMデータセットは主に、表の背景変数の存在下で臨床情報の抽出を容易にするために設計されており、これはドメイン知識を通してテキストから抽出される関心の概念(SynSUMの場合の症状)にリンクすることができる。二次的用途には、表型データとテキストの両方に対する臨床推論の自動化、表型および/またはテキストの共創者の存在による因果効果の推定、マルチモーダル合成データ生成などが含まれる。データセットはhttps://github.com/prabaey/SynSUMからダウンロードできる。

関連論文リスト

Harnessing Large Language Models for Precision Querying and Retrieval-Augmented Knowledge Extraction in Clinical Data Science [3.4325249294405555]
本研究では,2つの基礎的電子健康記録(EHR)データサイエンスタスクに対して,Large Language Models (LLMs)を適用した。我々は、LLMが分析のための大規模な構造化データセットと正確に相互作用する能力をテストする。本稿では,各データセットやタスクの特徴に合わせて,合成質問と解答ペアを自動生成するフレキシブルな評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-28T14:57:36Z)
Patient-level Information Extraction by Consistent Integration of Textual and Tabular Evidence with Bayesian Networks [4.993537302467224]
本稿では,専門家インフォームドベイズネットワークを用いたマルチモーダル患者レベルの情報抽出手法を提案する。本稿では,モデルの予測を解釈可能かつ確率的に融合させるために,一貫性ノードを付加した仮想エビデンスを提案する。提案手法の有効性をSimSUMデータセットに示す。
論文参考訳（メタデータ） (2025-11-21T08:59:42Z)
CLI-RAG: A Retrieval-Augmented Framework for Clinically Structured and Context Aware Text Generation with LLMs [0.1578515540930834]
CLI-RAG (Clinically Informed Retrieval-Augmented Generation) は、構造的および臨床的な基盤となるテキスト生成のためのドメイン固有のフレームワークである。臨床文書構造を尊重する新しい階層的チャンキング戦略を取り入れ、タスク固有の2段階検索機構を導入する。本システムを用いて,MIMIC-IIIデータセットから15種類の臨床ノートを作成した。
論文参考訳（メタデータ） (2025-07-09T10:13:38Z)
Clinical NLP with Attention-Based Deep Learning for Multi-Disease Prediction [44.0876796031468]
本稿では,電子健康記録テキストの非構造的性質と高次元意味論的複雑さがもたらす課題について論じる。情報抽出と多ラベル病予測のための統合モデリングを実現するために,注意機構に基づく深層学習手法を提案する。
論文参考訳（メタデータ） (2025-07-02T07:45:22Z)
An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文参考訳（メタデータ） (2025-03-28T06:18:15Z)
SynRL: Aligning Synthetic Clinical Trial Data with Human-preferred Clinical Endpoints Using Reinforcement Learning [23.643984146939573]
患者データ生成装置の性能向上のために強化学習を活用するSynRLを提案する。提案手法は,生成したデータの品質を評価するためのデータ値批判機能と,データジェネレータとユーザニーズを整合させる強化学習を利用する。
論文参考訳（メタデータ） (2024-11-11T19:19:46Z)
MedSyn: LLM-based Synthetic Medical Text Generation Framework [0.27376226833693]
MedSynは,大規模言語モデルと医療知識グラフを統合する新しい医用テキスト生成フレームワークである。我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
論文参考訳（メタデータ） (2024-08-04T15:07:44Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。 ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文参考訳（メタデータ） (2024-03-01T21:59:03Z)
Leveraging text data for causal inference using electronic health records [1.4182510510164876]
本稿では,電子健康データによる因果推論を支援するためにテキストデータを活用する統一的なフレームワークを提案する。従来のマッチング分析にテキストデータを組み込むことで、推定処理効果の妥当性を高めることができることを示す。これらの手法は、臨床データの二次解析範囲を、構造化ERHデータに制限された領域にまで広げる可能性があると考えている。
論文参考訳（メタデータ） (2023-06-09T16:06:02Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。臨床文献のコーパスを12種類に分類した。私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文参考訳（メタデータ） (2023-03-23T17:17:46Z)
T-Phenotype: Discovering Phenotypes of Predictive Temporal Patterns in Disease Progression [82.85825388788567]
我々は、ラベル付き時系列データから予測時相パターンの表現型を発見するために、新しい時間的クラスタリング手法T-Phenotypeを開発した。 T-フェノタイプは, 評価ベースラインのすべてに対して, 最良の表現型発見性能を示す。
論文参考訳（メタデータ） (2023-02-24T13:30:35Z)
Synthcity: facilitating innovative use cases of synthetic data in different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。 Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文参考訳（メタデータ） (2023-01-18T14:49:54Z)
Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-17T02:53:21Z)
Generating Realistic Synthetic Relational Data through Graph Variational Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文参考訳（メタデータ） (2022-11-30T10:40:44Z)
Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文参考訳（メタデータ） (2022-10-16T22:46:08Z)
Medical Scientific Table-to-Text Generation with Human-in-the-Loop under the Data Sparsity Constraint [11.720364723821993]
効率的なテーブル・ツー・テキスト要約システムは、このデータをレポートにまとめる手作業を大幅に減らすことができる。しかし、実際には、この問題は、正確で信頼性の高い出力を生成するための最先端の自然言語生成モデルの、データポーカリティ、データポーサリティ、および機能不全によって大きく妨げられている。本稿では, 自動補正, コピー機構, 合成データ拡張によって強化された新しい2段階アーキテクチャを用いて, テーブル・ツー・テキスト・アプローチを提案し, それらの課題に対処する。
論文参考訳（メタデータ） (2022-05-24T21:10:57Z)
Synthesising Electronic Health Records: Cystic Fibrosis Patient Group [3.255030588361125]
本稿では,患者電子健康記録を合成する合成データ生成機能について検討する。本研究では, 患者結果分類のための合成データの有用性を検証し, 不均衡なデータセットを合成データで拡張する際の予測性能の向上を検証した。
論文参考訳（メタデータ） (2022-01-14T11:35:18Z)
Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文参考訳（メタデータ） (2021-08-02T10:42:52Z)
Drug and Disease Interpretation Learning with Biomedical Entity Representation Transformer [9.152161078854146]
自由形式のテキストにおける概念正規化は、あらゆるテキストマイニングパイプラインにおいて重要なステップです。微調整BERTアーキテクチャに基づくシンプルで効果的な2段階のニューラルアプローチを提案する。
論文参考訳（メタデータ） (2021-01-22T20:01:25Z)
Text Mining to Identify and Extract Novel Disease Treatments From Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。次に、テキストを体系的に前処理するためのパイプラインを構築します。我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文参考訳（メタデータ） (2020-10-22T19:52:49Z)
Trajectories, bifurcations and pseudotime in large clinical datasets: applications to myocardial infarction and diabetes data [94.37521840642141]
混合データ型と欠落値を特徴とする大規模臨床データセット分析のための半教師付き方法論を提案する。この手法は、次元の減少、データの可視化、クラスタリング、特徴の選択と、部分的に順序付けられた観測列における測地距離(擬時)の定量化のタスクを同時に扱うことのできる弾性主グラフの適用に基づいている。
論文参考訳（メタデータ） (2020-07-07T21:04:55Z)
Knowledge-guided Text Structuring in Clinical Trials [0.38073142980733]
本稿では,知識ベースを自動生成する知識誘導型テキスト構造化フレームワークを提案する。実験結果から,本手法は全体の高精度化とリコールが可能であることが示唆された。
論文参考訳（メタデータ） (2019-12-28T01:12:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。