論文の概要: SDOH-NLI: a Dataset for Inferring Social Determinants of Health from
Clinical Notes
- arxiv url: http://arxiv.org/abs/2310.18431v1
- Date: Fri, 27 Oct 2023 19:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 18:47:47.408403
- Title: SDOH-NLI: a Dataset for Inferring Social Determinants of Health from
Clinical Notes
- Title(参考訳): SDOH-NLI : 臨床ノートから健康決定因子を推定するためのデータセット
- Authors: Adam D. Lelkes, Eric Loreaux, Tal Schuster, Ming-Jun Chen, Alvin
Rajkomar
- Abstract要約: 社会的および行動的健康決定因子(SDOH)は、健康結果を形成する上で重要な役割を果たす。
このタスクにNLPメソッドを使うことの進歩は、高品質な公開ラベル付きデータの不足によって妨げられている。
本稿では,公開ノートをベースとした新たなデータセットであるSDOH-NLIを紹介する。
- 参考スコア(独自算出の注目度): 13.991819517682574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social and behavioral determinants of health (SDOH) play a significant role
in shaping health outcomes, and extracting these determinants from clinical
notes is a first step to help healthcare providers systematically identify
opportunities to provide appropriate care and address disparities. Progress on
using NLP methods for this task has been hindered by the lack of high-quality
publicly available labeled data, largely due to the privacy and regulatory
constraints on the use of real patients' information. This paper introduces a
new dataset, SDOH-NLI, that is based on publicly available notes and which we
release publicly. We formulate SDOH extraction as a natural language inference
(NLI) task, and provide binary textual entailment labels obtained from human
raters for a cross product of a set of social history snippets as premises and
SDOH factors as hypotheses. Our dataset differs from standard NLI benchmarks in
that our premises and hypotheses are obtained independently. We evaluate both
"off-the-shelf" entailment models as well as models fine-tuned on our data, and
highlight the ways in which our dataset appears more challenging than commonly
used NLI datasets.
- Abstract(参考訳): 社会的および行動的健康決定因子(SDOH)は、健康結果を形成する上で重要な役割を担い、臨床ノートからこれらの決定因子を抽出することは、医療提供者が適切なケアを提供し、格差に対処する機会を体系的に特定するための第一歩である。
このタスクにNLPメソッドを使うことの進歩は、実際の患者の情報の使用に関するプライバシーと規制の制約により、高品質な公開ラベル付きデータの不足によって妨げられている。
本稿では,公開ノートをベースとした新たなデータセットであるSDOH-NLIを紹介する。
我々は、自然言語推論(NLI)タスクとしてSDOH抽出を定式化し、社会史スニペットの集合を前提とし、SDOH因子を仮説として、人間のラッカーから得られたバイナリテキストエンターメントラベルを提供する。
我々のデータセットは標準のNLIベンチマークと異なり、前提と仮説は独立して得られる。
包含モデルとデータに微調整されたモデルの両方を評価し、一般的なnliデータセットよりもデータセットがより難しいように見える方法を強調します。
関連論文リスト
- LLM-Forest for Health Tabular Data Imputation [37.14344322899091]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
筆者らは,自信に基づく重み付き投票を伴う,数発の学習用LLM"ツリー"の"フォレスト"を導入した,新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、高品質な関連する隣り合うエントリを識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - FedCVD: The First Real-World Federated Learning Benchmark on Cardiovascular Disease Data [52.55123685248105]
心臓血管疾患(CVD)は、現在世界でも主要な死因であり、早期診断と治療の要点を浮き彫りにしている。
機械学習(ML)手法はCVDの早期診断に役立つが、その性能は高品質なデータへのアクセスに依存している。
本稿では、FedCVDという心臓血管疾患検出のための、世界初の実世界のFLベンチマークを示す。
論文 参考訳(メタデータ) (2024-10-28T02:24:01Z) - Controllable Synthetic Clinical Note Generation with Privacy Guarantees [7.1366477372157995]
本稿では、PHI(Personal Health Information)を含む「クローン」データセットに対する新しい手法を提案する。
我々のアプローチは、クローン化されたデータセットが患者のプライバシを損なうことなく、元のデータの本質的な特性と有用性を保っていることを保証します。
クローン化されたデータセットでトレーニングされた機械学習モデルの性能を評価するために,ユーティリティテストを実施している。
論文 参考訳(メタデータ) (2024-09-12T07:38:34Z) - Large Language Models for Integrating Social Determinant of Health Data: A Case Study on Heart Failure 30-Day Readmission Prediction [4.042918413611158]
健康の社会的決定因子(SDOH)は、健康の結果に重要な役割を果たす。
最近のオープンデータイニシアチブは、より包括的なSDOHのビューを構築する機会を提供する。
大規模言語モデル(LLM)は、構造化されたデータを自動的にアノテートすることを約束している。
論文 参考訳(メタデータ) (2024-07-12T21:14:06Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Evaluating the Impact of Social Determinants on Health Prediction in the
Intensive Care Unit [10.764842579064636]
健康の社会的決定因子(SDOH)は、人の健康と幸福に重要な役割を果たす。
電子健康記録に基づくリスク予測モデルの多くは、包括的なSDOH機能群を含まない。
我々の研究は、公開のEHRデータベースMIMIC-IVをドキュメント化されたSDOH機能にリンクしています。
論文 参考訳(メタデータ) (2023-05-22T01:27:51Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Leveraging Natural Language Processing to Augment Structured Social
Determinants of Health Data in the Electronic Health Record [1.7812428873698403]
健康の社会的決定因子(SDOH)は健康に影響を及ぼす。
臨床ノートにはより包括的なSDOH情報が含まれていることが多い。
我々は,ディープラーニングエンティティと関係抽出アーキテクチャを用いた新しいSDOH抽出器を開発した。
論文 参考訳(メタデータ) (2022-12-14T22:51:49Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。