論文の概要: Medical Scientific Table-to-Text Generation with Human-in-the-Loop under
the Data Sparsity Constraint
- arxiv url: http://arxiv.org/abs/2205.12368v1
- Date: Tue, 24 May 2022 21:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 02:27:56.697139
- Title: Medical Scientific Table-to-Text Generation with Human-in-the-Loop under
the Data Sparsity Constraint
- Title(参考訳): データ空間制約下でのヒューマン・イン・ザ・ループによる医用テーブル・トゥ・テキスト生成
- Authors: Heng-Yi Wu, Jingqing Zhang, Julia Ive, Tong Li, Narges Tabari,
Bingyuan Chen, Vibhor Gupta, Yike Guo
- Abstract要約: 効率的なテーブル・ツー・テキスト要約システムは、このデータをレポートにまとめる手作業を大幅に減らすことができる。
しかし、実際には、この問題は、正確で信頼性の高い出力を生成するための最先端の自然言語生成モデルの、データポーカリティ、データポーサリティ、および機能不全によって大きく妨げられている。
本稿では, 自動補正, コピー機構, 合成データ拡張によって強化された新しい2段階アーキテクチャを用いて, テーブル・ツー・テキスト・アプローチを提案し, それらの課題に対処する。
- 参考スコア(独自算出の注目度): 11.720364723821993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured (tabular) data in the preclinical and clinical domains contains
valuable information about individuals and an efficient table-to-text
summarization system can drastically reduce manual efforts to condense this
data into reports. However, in practice, the problem is heavily impeded by the
data paucity, data sparsity and inability of the state-of-the-art natural
language generation models (including T5, PEGASUS and GPT-Neo) to produce
accurate and reliable outputs. In this paper, we propose a novel table-to-text
approach and tackle these problems with a novel two-step architecture which is
enhanced by auto-correction, copy mechanism and synthetic data augmentation.
The study shows that the proposed approach selects salient biomedical entities
and values from structured data with improved precision (up to 0.13 absolute
increase) of copying the tabular values to generate coherent and accurate text
for assay validation reports and toxicology reports. Moreover, we also
demonstrate a light-weight adaptation of the proposed system to new datasets by
fine-tuning with as little as 40\% training examples. The outputs of our model
are validated by human experts in the Human-in-the-Loop scenario.
- Abstract(参考訳): 前臨床領域と臨床領域の構造的(語彙的)データには、個人に関する貴重な情報が含まれており、効率的な表とテキストの要約システムは、このデータをレポートにまとめるための手作業を大幅に削減することができる。
しかし実際には、この問題は最先端の自然言語生成モデル(T5, PEGASUS, GPT-Neoを含む)が正確で信頼性の高い出力を生成するために、データポーカリティ、データスポーサリティ、および機能不全によって大きく妨げられている。
本稿では, 自動補正, コピー機構, 合成データ拡張によって拡張された新しい2段階アーキテクチャを用いて, テーブル・トゥ・テキスト方式を提案する。
本研究により, 本手法は, 評価評価報告や毒性報告のコヒーレントかつ正確なテキストを生成するために, 表紙値のコピー精度を向上した(最大0。13絶対増加)構造データから, 健全な生物医学的実体と値を選択する。
さらに,提案手法をトレーニング例を40%以下で微調整することで,新たなデータセットに軽量に適応することを示す。
我々のモデルのアウトプットはHuman-in-the-Loopシナリオで人間の専門家によって検証される。
関連論文リスト
- Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文 参考訳(メタデータ) (2024-09-15T15:21:45Z) - Enhancing Clinical Documentation with Synthetic Data: Leveraging Generative Models for Improved Accuracy [0.0]
本稿では, 合成データ生成技術を活用した新たな臨床文書作成手法を提案する。
本稿では,GAN (Generative Adrial Networks) やVAE (variantal Autoencoders) など,最先端の生成モデルを組み合わせた方法論を提案する。
実世界のデータによく似た高品質な合成文字を生成する上で,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-03T15:49:03Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Leveraging text data for causal inference using electronic health records [1.4182510510164876]
本稿では,電子健康データによる因果推論を支援するためにテキストデータを活用する統一的なフレームワークを提案する。
従来のマッチング分析にテキストデータを組み込むことで、推定処理効果の妥当性を高めることができることを示す。
これらの手法は、臨床データの二次解析範囲を、構造化ERHデータに制限された領域にまで広げる可能性があると考えている。
論文 参考訳(メタデータ) (2023-06-09T16:06:02Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - P-Transformer: A Prompt-based Multimodal Transformer Architecture For
Medical Tabular Data [2.6487114372147182]
本稿では,P-Transformerを提案する。
このフレームワークは、構造化データと非構造化データの両方から、多彩なモダリティを調和した言語意味空間に効率的にエンコードする。
P-Transformerは、RMSE/MAEで10.9%/11.0%、RMSE/MAEで0.5%/2.2%、BACC/AUROCで1.6%/0.8%、予測可能性でSOTA(State-of-the-art)ベースラインと比較して改善した。
論文 参考訳(メタデータ) (2023-03-30T14:25:44Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Estimating Redundancy in Clinical Text [6.245180523143739]
臨床医は、既存のメモを複製し、それに従って更新することで、新しい文書をポップアップさせる。
情報冗長性の定量化は、臨床物語を扱う革新を評価する上で重要な役割を果たす。
冗長性を測定するための2つの戦略として,情報理論アプローチと語彙論的・意味論的モデルを提示し,評価する。
論文 参考訳(メタデータ) (2021-05-25T11:01:45Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。