論文の概要: ACES: Automatic Cohort Extraction System for Event-Stream Datasets
- arxiv url: http://arxiv.org/abs/2406.19653v1
- Date: Fri, 28 Jun 2024 04:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:50:12.893729
- Title: ACES: Automatic Cohort Extraction System for Event-Stream Datasets
- Title(参考訳): ACES:イベントストリームデータセットの自動コホート抽出システム
- Authors: Justin Xu, Jack Gallifant, Alistair E. W. Johnson, Matthew B. A. McDermott,
- Abstract要約: 医療における機械学習(ML)において、再現性は依然として重要な課題である。
イベントストリームデータセットの自動コホート抽出システム(ACES)について紹介する。
ACESは、(1)データセット固有の概念と、データセットに依存しない包含/排除基準の両方を定義するための、非常に直感的で表現力豊かな構成言語を提供し、(2)患者記録を自動的に抽出するパイプラインを提供する。
- 参考スコア(独自算出の注目度): 1.9338569571933975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducibility remains a significant challenge in machine learning (ML) for healthcare. In this field, datasets, model pipelines, and even task/cohort definitions are often private, leading to a significant barrier in sharing, iterating, and understanding ML results on electronic health record (EHR) datasets. In this paper, we address a significant part of this problem by introducing the Automatic Cohort Extraction System for Event-Stream Datasets (ACES). This tool is designed to simultaneously simplify the development of task/cohorts for ML in healthcare and enable the reproduction of these cohorts, both at an exact level for single datasets and at a conceptual level across datasets. To accomplish this, ACES provides (1) a highly intuitive and expressive configuration language for defining both dataset-specific concepts and dataset-agnostic inclusion/exclusion criteria, and (2) a pipeline to automatically extract patient records that meet these defined criteria from real-world data. ACES can be automatically applied to any dataset in either the Medical Event Data Standard (MEDS) or EventStreamGPT (ESGPT) formats, or to *any* dataset for which the necessary task-specific predicates can be extracted in an event-stream form. ACES has the potential to significantly lower the barrier to entry for defining ML tasks, redefine the way researchers interact with EHR datasets, and significantly improve the state of reproducibility for ML studies in this modality. ACES is available at https://github.com/justin13601/aces.
- Abstract(参考訳): 医療における機械学習(ML)において、再現性は依然として重要な課題である。
この分野では、データセット、モデルパイプライン、タスク/コホート定義さえもプライベートであり、電子健康記録(EHR)データセット上でのML結果の共有、イテレーション、理解において大きな障壁となる。
本稿では,イベントストリームデータセットの自動コホート抽出システム(ACES)を導入することで,この問題に対処する。
このツールは、医療におけるMLのタスク/コホートの開発を同時に単純化し、単一のデータセットの正確なレベルとデータセット間の概念レベルの両方において、これらのコホートを再現可能にするように設計されている。
これを実現するために、(1)データセット固有の概念とデータセットに依存しない包含/排他的基準の両方を定義するための、非常に直感的で表現力豊かな構成言語、(2)現実世界のデータから、これらの定義された基準を満たす患者の記録を自動的に抽出するパイプラインを提供する。
ACESは、医療イベントデータ標準(MEDS)またはイベントStreamGPT(ESGPT)フォーマットの任意のデータセットや、必要なタスク固有の述語をイベントストリーム形式で抽出可能な*any*データセットに自動的に適用される。
ACESは、MLタスク定義の参入障壁を著しく低くし、研究者がEHRデータセットと対話する方法を再定義し、このモダリティにおけるML研究の再現可能性の状態を著しく改善する可能性がある。
ACESはhttps://github.com/justin13601/acesで入手できる。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Prompting Large Language Models for Zero-Shot Clinical Prediction with
Structured Longitudinal Electronic Health Record Data [7.815738943706123]
大規模言語モデル(LLM)は、伝統的に自然言語処理に向いている。
本研究では, GPT-4 などの LLM の EHR データへの適応性について検討する。
EHRデータの長手性、スパース性、知識を注入した性質に対応するため、本研究は特定の特徴を考慮に入れている。
論文 参考訳(メタデータ) (2024-01-25T20:14:50Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Two Directions for Clinical Data Generation with Large Language Models:
Data-to-Label and Label-to-Data [17.67978817515676]
大型言語モデル(LLM)がアルツハイマー病(AD)関連徴候や症状を検出する臨床データを増強できるかどうかを検討する。
専門知識に基づくADサインと症状進行のための新しい実用的な分類法を作成する。
3つのデータセットを用いてAD関連徴候と症状をEHRから検出するシステムを訓練する。
論文 参考訳(メタデータ) (2023-12-09T19:35:40Z) - EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized
and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。
このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。
私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文 参考訳(メタデータ) (2023-12-04T06:51:46Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Gradient Imitation Reinforcement Learning for General Low-Resource
Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。
GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文 参考訳(メタデータ) (2022-11-11T05:37:19Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。