論文の概要: Leveraging text data for causal inference using electronic health
records
- arxiv url: http://arxiv.org/abs/2307.03687v1
- Date: Fri, 9 Jun 2023 16:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-16 04:15:42.570204
- Title: Leveraging text data for causal inference using electronic health
records
- Title(参考訳): 電子健康記録を用いた因果推論におけるテキストデータ活用
- Authors: Reagan Mozer, Aaron R. Kaufman, Leo A. Celi, and Luke Miratrix
- Abstract要約: 電子健康データを用いて因果推論を支援するためにテキストデータをどのように利用できるかを示す。
我々は、因果推論のためのマッチングを用いた研究に焦点をあてる。
臨床データの二次分析の範囲を、量的データが質の悪い領域や存在しない領域にまで広げたい。
- 参考スコア(独自算出の注目度): 2.4374097382908477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text is a ubiquitous component of medical data, containing valuable
information about patient characteristics and care that are often missing from
structured chart data. Despite this richness, it is rarely used in clinical
research, owing partly to its complexity. Using a large database of patient
records and treatment histories accompanied by extensive notes by attendant
physicians and nurses, we show how text data can be used to support causal
inference with electronic health data in all stages, from conception and design
to analysis and interpretation, with minimal additional effort. We focus on
studies using matching for causal inference. We augment a classic matching
analysis by incorporating text in three ways: by using text to supplement a
multiple imputation procedure, we improve the fidelity of imputed values to
handle missing data; by incorporating text in the matching stage, we strengthen
the plausibility of the matching procedure; and by conditioning on text, we can
estimate easily interpretable text-based heterogeneous treatment effects that
may be stronger than those found across categories of structured covariates.
Using these techniques, we hope to expand the scope of secondary analysis of
clinical data to domains where quantitative data is of poor quality or
nonexistent, but where text is available, such as in developing countries.
- Abstract(参考訳): テキストは医療データのユビキタスな構成要素であり、構造化されたチャートデータからしばしば欠落する患者の特徴やケアに関する貴重な情報を含んでいる。
この豊かさにもかかわらず、その複雑さのために臨床研究ではほとんど使われない。
主治医や看護師の膨大なメモを伴う患者の記録や治療履歴の大規模なデータベースを用いて,概念や設計から分析,解釈まで,あらゆる段階において,電子健康データを用いた因果推論にテキストデータをどのように活用できるかを,最小限の努力で示す。
因果推論にマッチングを用いた研究に注目する。
従来のマッチング分析では,複数のインプテーション手続きを補足するためにテキストを用いることで,不定値の忠実性を改善し,マッチング段階にテキストを組み込むことでマッチング手順の信頼性を高め,テキストの条件づけにより,構造的共変数のカテゴリで見られるものよりも強力なテキストベースの不均質な処理効果を容易に推定できる。
これらの技術を用いて, 臨床データの二次分析の範囲を, 品質の悪い領域や存在しない領域に拡大し, 途上国などテキストが利用可能な領域に拡大したい。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Preserving the knowledge of long clinical texts using aggregated
ensembles of large language models [0.0]
臨床テキストには、様々な臨床結果予測タスクに使用できる、豊富で価値のある情報が含まれている。
BERTベースのモデルのような大きな言語モデルを臨床テキストに適用することは、2つの大きな課題をもたらす。
本稿では,大規模言語モデルの集合アンサンブルを用いて,長期臨床テキストの知識を保存するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T19:50:02Z) - Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Cross-lingual Argument Mining in the Medical Domain [5.9647924003148365]
このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Heterogeneous electronic medical record representation for similarity
computing [3.039568795810294]
患者類似度評価は、特定の患者に類似している患者を識別するための二次タスクの1つです。
本稿では,EMR(Electronic Medical Records)の新しいデータ表現手法について検討する。
本研究では,非構造化データと構造化データを用いて,症状,症状,疾患を含むさまざまな医療イベントの同時発生を捉える手法を提案する。
論文 参考訳(メタデータ) (2021-04-29T09:38:14Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - Knowledge-guided Text Structuring in Clinical Trials [0.38073142980733]
本稿では,知識ベースを自動生成する知識誘導型テキスト構造化フレームワークを提案する。
実験結果から,本手法は全体の高精度化とリコールが可能であることが示唆された。
論文 参考訳(メタデータ) (2019-12-28T01:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。