Fugu-MT 論文翻訳(概要): ACES: Automatic Cohort Extraction System for Event-Stream Datasets

論文の概要: ACES: Automatic Cohort Extraction System for Event-Stream Datasets

arxiv url: http://arxiv.org/abs/2406.19653v2
Date: Sun, 13 Oct 2024 22:55:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 04:52:45.202541
Title: ACES: Automatic Cohort Extraction System for Event-Stream Datasets
Title（参考訳）: ACES:イベントストリームデータセットの自動コホート抽出システム
Authors: Justin Xu, Jack Gallifant, Alistair E. W. Johnson, Matthew B. A. McDermott,
Abstract要約: 本稿では,イベントストリームデータを対象とした自動コホート抽出システム(ACES)を提案する。 ACESは、医療における機械学習(ML)のためのタスク/コホートの開発を再定義する。 ACESは、メディカルイベントデータ標準(MEDS)またはイベントストリームGPT(ESGPT)フォーマットの任意のデータセットに自動的に適用される。
参考スコア（独自算出の注目度）: 1.9338569571933975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reproducibility remains a significant challenge in machine learning (ML) for healthcare. Datasets, model pipelines, and even task/cohort definitions are often private in this field, leading to a significant barrier in sharing, iterating, and understanding ML results on electronic health record (EHR) datasets. This paper addresses a significant part of this problem by introducing the Automatic Cohort Extraction System (ACES) for event-stream data. This library is designed to simultaneously simplify the development of task/cohorts for ML in healthcare and also enable the reproduction of these cohorts, both at an exact level for single datasets and at a conceptual level across datasets. To accomplish this, ACES provides (1) a highly intuitive and expressive configuration language for defining both dataset-specific concepts and dataset-agnostic inclusion/exclusion criteria, and (2) a pipeline to automatically extract patient records that meet these defined criteria from real-world data. ACES can be automatically applied to any dataset in either the Medical Event Data Standard (MEDS) or EventStreamGPT (ESGPT) formats, or to any dataset in which the necessary task-specific predicates can be extracted in an event-stream form. ACES has the potential to significantly lower the barrier to entry for defining ML tasks that learn representations, redefine the way researchers interact with EHR datasets, and significantly improve the state of reproducibility for ML studies in this modality. ACES is available at https://github.com/justin13601/aces. A short video demonstration of ACES is available at https://youtu.be/i_hCaHDydqA.
Abstract（参考訳）: 医療における機械学習(ML)において、再現性は依然として重要な課題である。データセット、モデルパイプライン、さらにはタスク/コホート定義さえも、この分野ではプライベートであることが多いため、EHR(Electronic Health Record)データセット上でのML結果の共有、イテレーション、理解において、大きな障壁となる。本稿では,イベントストリームデータを対象とした自動コーホート抽出システム (ACES) を導入することで,この問題に対処する。このライブラリは、医療におけるMLのタスク/コホートの開発を同時に単純化し、単一のデータセットの正確なレベルでも、データセット全体の概念レベルでも、これらのコホートを再現可能にするように設計されている。これを実現するために、(1)データセット固有の概念とデータセットに依存しない包含/排他的基準の両方を定義するための、非常に直感的で表現力豊かな構成言語、(2)現実世界のデータから、これらの定義された基準を満たす患者の記録を自動的に抽出するパイプラインを提供する。 ACESは、メディカルイベントデータ標準(MEDS)またはイベントストリームGPT(ESGPT)フォーマットの任意のデータセットや、必要なタスク固有の述語をイベントストリーム形式で抽出可能なデータセットに自動的に適用される。 ACESは、表現を学ぶためのMLタスクを定義するための参入障壁を著しく低くし、研究者がEHRデータセットと対話する方法を再定義し、このモダリティにおけるML研究の再現可能性の状態を著しく改善する可能性がある。 ACESはhttps://github.com/justin13601/acesで入手できる。 ACESの短いビデオデモはhttps://youtu.be/i_hCaHDydqAで公開されている。

関連論文リスト

Harnessing Large Language Models for Precision Querying and Retrieval-Augmented Knowledge Extraction in Clinical Data Science [3.4325249294405555]
本研究では,2つの基礎的電子健康記録(EHR)データサイエンスタスクに対して,Large Language Models (LLMs)を適用した。我々は、LLMが分析のための大規模な構造化データセットと正確に相互作用する能力をテストする。本稿では,各データセットやタスクの特徴に合わせて,合成質問と解答ペアを自動生成するフレキシブルな評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-28T14:57:36Z)
Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
Clinical Data Goes MEDS? Let's OWL make sense of it [0.3441021278275805]
医療データへの機械学習の適用は、標準化された、意味論的に明示された表現の欠如によってしばしば妨げられる。医療イベントデータ標準(MEDS)は、最小限のイベント中心のデータモデルを導入することで、これらの問題に対処する。本稿では,MEDSデータセットをRDFグラフとして表現するために,形式的な概念と関係を提供する軽量オントロジーであるMEDS-OWLを紹介する。
論文参考訳（メタデータ） (2026-01-07T18:25:02Z)
MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。 Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。 MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文参考訳（メタデータ） (2025-10-31T15:51:39Z)
LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。 LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文参考訳（メタデータ） (2025-09-28T17:31:38Z)
The CRITICAL Records Integrated Standardization Pipeline (CRISP): End-to-End Processing of Large-scale Multi-institutional OMOP CDM Data [1.3724581418672368]
このデータセットは、地理的に多様な4つのCTSA機関にわたる371,365人の患者の95億件の記録を含んでいる。 CRITICALのユニークな強みは、ICU前、ICU前、ICU後など、フルスペクトルの患者旅行を捉えることである。この貴重なリソースの可能性を最大限に活用するためにCRISPを提示する。
論文参考訳（メタデータ） (2025-09-10T03:06:24Z)
Towards an Introspective Dynamic Model of Globally Distributed Computing Infrastructures [27.473508984130728]
大規模な科学的コラボレーションはペタバイト単位のデータを生成し、ボリュームはすぐにエクタバイトに達すると期待されている。これらの計算とストレージの要求を管理するために、中央集権的なワークフローとデータ管理システムが実装されている。より効果的あるいはAI駆動のソリューションを採用する上で重要な障害は、迅速で信頼性の高いイントロスペクティブ・ダイナミック・モデルがないことである。
論文参考訳（メタデータ） (2025-06-24T12:42:36Z)
From Data to Decision: Data-Centric Infrastructure for Reproducible ML in Collaborative eScience [1.136688282190268]
機械学習(ML)における再現性は依然として中心的な課題である現在のMLは、しばしば断片化され、非公式なデータ共有、アドホックスクリプト、ゆるく接続されたツールに依存している。本稿では,ライフサイクルを意識したアーティファクトのためのデータ中心フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-19T06:09:01Z)
Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.520644988801243]
機械学習データセットの潜時バイアスは、トレーニング中に増幅され、テスト中に/または隠される。本稿では,偏見源に関するターゲット仮説を生成するためのデータモダリティに依存しない監査フレームワークを提案する。大規模医療データセットを解析することにより,本手法の適用可能性と価値を実証する。
論文参考訳（メタデータ） (2025-03-13T02:16:48Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
CAAT-EHR: Cross-Attentional Autoregressive Transformer for Multimodal Electronic Health Record Embeddings [0.0]
本稿では,タスク非依存の縦埋め込みを生のEHRデータから生成する新しいアーキテクチャであるCAAT-EHRを紹介する。自己回帰デコーダは、事前訓練中に将来の時刻データを予測してエンコーダを補完し、その結果の埋め込みが時間的整合性と整合性を維持する。
論文参考訳（メタデータ） (2025-01-31T05:00:02Z)
GENIE: Generative Note Information Extraction model for structuring EHR data [14.057531175321113]
生成ノート情報抽出システムGENIEを紹介する。 GENIEは1つのパスで全段落を処理し、エンティティ、アサーションステータス、ロケーション、修飾子、値、目的を高精度に抽出する。堅牢なデータ準備パイプラインと微調整された小型LLMを使用して、GENIEは複数の情報抽出タスク間での競合性能を実現する。
論文参考訳（メタデータ） (2025-01-30T15:42:24Z)
Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。 Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文参考訳（メタデータ） (2024-10-31T16:34:03Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-08-09T18:11:26Z)
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:04:34Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
EDALearn: A Comprehensive RTL-to-Signoff EDA Benchmark for Democratized and Reproducible ML for EDA Research [5.093676641214663]
我々はEDALearnを紹介した。EDALearnは、EDAの機械学習タスクに特化した、最初の包括的なオープンソースベンチマークスイートである。このベンチマークスイートは、合成から物理実装までのエンドツーエンドのフローを示し、さまざまなステージにわたるデータ収集を強化する。私たちの貢献はML-EDAドメインのさらなる進歩を促進することを目的としています。
論文参考訳（メタデータ） (2023-12-04T06:51:46Z)
Clairvoyance: A Pipeline Toolkit for Medical Time Series [95.22483029602921]
時系列学習は、データ駆動の*クリニカルな意思決定支援のパンとバターである* Clairvoyanceは、ソフトウェアツールキットとして機能する、統合されたエンドツーエンドのオートMLフレンドリなパイプラインを提案する。 Clairvoyanceは、臨床時系列MLのための包括的で自動化可能なパイプラインの生存可能性を示す最初のものである。
論文参考訳（メタデータ） (2023-10-28T12:08:03Z)
Utilising a Large Language Model to Annotate Subject Metadata: A Case Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文参考訳（メタデータ） (2023-10-17T14:52:33Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文参考訳（メタデータ） (2023-04-27T21:08:05Z)
Gradient Imitation Reinforcement Learning for General Low-Resource Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。 GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文参考訳（メタデータ） (2022-11-11T05:37:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。