論文の概要: ACES: Automatic Cohort Extraction System for Event-Stream Datasets
- arxiv url: http://arxiv.org/abs/2406.19653v2
- Date: Sun, 13 Oct 2024 22:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:05.074794
- Title: ACES: Automatic Cohort Extraction System for Event-Stream Datasets
- Title(参考訳): ACES:イベントストリームデータセットの自動コホート抽出システム
- Authors: Justin Xu, Jack Gallifant, Alistair E. W. Johnson, Matthew B. A. McDermott,
- Abstract要約: 本稿では,イベントストリームデータを対象とした自動コホート抽出システム(ACES)を提案する。
ACESは、医療における機械学習(ML)のためのタスク/コホートの開発を再定義する。
ACESは、メディカルイベントデータ標準(MEDS)またはイベントストリームGPT(ESGPT)フォーマットの任意のデータセットに自動的に適用される。
- 参考スコア(独自算出の注目度): 1.9338569571933975
- License:
- Abstract: Reproducibility remains a significant challenge in machine learning (ML) for healthcare. Datasets, model pipelines, and even task/cohort definitions are often private in this field, leading to a significant barrier in sharing, iterating, and understanding ML results on electronic health record (EHR) datasets. This paper addresses a significant part of this problem by introducing the Automatic Cohort Extraction System (ACES) for event-stream data. This library is designed to simultaneously simplify the development of task/cohorts for ML in healthcare and also enable the reproduction of these cohorts, both at an exact level for single datasets and at a conceptual level across datasets. To accomplish this, ACES provides (1) a highly intuitive and expressive configuration language for defining both dataset-specific concepts and dataset-agnostic inclusion/exclusion criteria, and (2) a pipeline to automatically extract patient records that meet these defined criteria from real-world data. ACES can be automatically applied to any dataset in either the Medical Event Data Standard (MEDS) or EventStreamGPT (ESGPT) formats, or to any dataset in which the necessary task-specific predicates can be extracted in an event-stream form. ACES has the potential to significantly lower the barrier to entry for defining ML tasks that learn representations, redefine the way researchers interact with EHR datasets, and significantly improve the state of reproducibility for ML studies in this modality. ACES is available at https://github.com/justin13601/aces. A short video demonstration of ACES is available at https://youtu.be/i_hCaHDydqA.
- Abstract(参考訳): 医療における機械学習(ML)において、再現性は依然として重要な課題である。
データセット、モデルパイプライン、さらにはタスク/コホート定義さえも、この分野ではプライベートであることが多いため、EHR(Electronic Health Record)データセット上でのML結果の共有、イテレーション、理解において、大きな障壁となる。
本稿では,イベントストリームデータを対象とした自動コーホート抽出システム (ACES) を導入することで,この問題に対処する。
このライブラリは、医療におけるMLのタスク/コホートの開発を同時に単純化し、単一のデータセットの正確なレベルでも、データセット全体の概念レベルでも、これらのコホートを再現可能にするように設計されている。
これを実現するために、(1)データセット固有の概念とデータセットに依存しない包含/排他的基準の両方を定義するための、非常に直感的で表現力豊かな構成言語、(2)現実世界のデータから、これらの定義された基準を満たす患者の記録を自動的に抽出するパイプラインを提供する。
ACESは、メディカルイベントデータ標準(MEDS)またはイベントストリームGPT(ESGPT)フォーマットの任意のデータセットや、必要なタスク固有の述語をイベントストリーム形式で抽出可能なデータセットに自動的に適用される。
ACESは、表現を学ぶためのMLタスクを定義するための参入障壁を著しく低くし、研究者がEHRデータセットと対話する方法を再定義し、このモダリティにおけるML研究の再現可能性の状態を著しく改善する可能性がある。
ACESはhttps://github.com/justin13601/acesで入手できる。
ACESの短いビデオデモはhttps://youtu.be/i_hCaHDydqAで公開されている。
関連論文リスト
- CAAT-EHR: Cross-Attentional Autoregressive Transformer for Multimodal Electronic Health Record Embeddings [0.0]
本稿では,タスク非依存の縦埋め込みを生のEHRデータから生成する新しいアーキテクチャであるCAAT-EHRを紹介する。
自己回帰デコーダは、事前訓練中に将来の時刻データを予測してエンコーダを補完し、その結果の埋め込みが時間的整合性と整合性を維持する。
論文 参考訳(メタデータ) (2025-01-31T05:00:02Z) - GENIE: Generative Note Information Extraction model for structuring EHR data [14.057531175321113]
生成ノート情報抽出システムGENIEを紹介する。
GENIEは1つのパスで全段落を処理し、エンティティ、アサーションステータス、ロケーション、修飾子、値、目的を高精度に抽出する。
堅牢なデータ準備パイプラインと微調整された小型LLMを使用して、GENIEは複数の情報抽出タスク間での競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T15:42:24Z) - Online Continual Learning: A Systematic Literature Review of Approaches, Challenges, and Benchmarks [1.3631535881390204]
オンライン連続学習(OCL)は、機械学習において重要な分野である。
本研究は,OCLに関する総合的なシステム文献レビューを初めて実施する。
論文 参考訳(メタデータ) (2025-01-09T01:03:14Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである*
Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。
Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文 参考訳(メタデータ) (2023-10-28T12:08:03Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。