論文の概要: Mimic-IV-ICD: A new benchmark for eXtreme MultiLabel Classification
- arxiv url: http://arxiv.org/abs/2304.13998v1
- Date: Thu, 27 Apr 2023 07:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 14:05:45.817205
- Title: Mimic-IV-ICD: A new benchmark for eXtreme MultiLabel Classification
- Title(参考訳): Mimic-IV-ICD: eXtreme MultiLabel 分類の新しいベンチマーク
- Authors: Thanh-Tung Nguyen, Viktor Schlegel, Abhinav Kashyap, Stefan Winkler,
Shao-Syuan Huang, Jie-Jyun Liu, Chih-Jen Lin
- Abstract要約: 本稿では,MIMIC-IV から派生した大規模な EHR データセットを用いた ICD-10 符号化のための公開ベンチマークスイートを提案する。
我々はMIMIC-IVデータを用いた新しいICD-9ベンチマークを作成し、MIMIC-IIIよりも多くのデータポイントと多くのICDコードを提供する。
- 参考スコア(独自算出の注目度): 15.447334151024005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical notes are assigned ICD codes - sets of codes for diagnoses and
procedures. In the recent years, predictive machine learning models have been
built for automatic ICD coding. However, there is a lack of widely accepted
benchmarks for automated ICD coding models based on large-scale public EHR
data.
This paper proposes a public benchmark suite for ICD-10 coding using a large
EHR dataset derived from MIMIC-IV, the most recent public EHR dataset. We
implement and compare several popular methods for ICD coding prediction tasks
to standardize data preprocessing and establish a comprehensive ICD coding
benchmark dataset. This approach fosters reproducibility and model comparison,
accelerating progress toward employing automated ICD coding in future studies.
Furthermore, we create a new ICD-9 benchmark using MIMIC-IV data, providing
more data points and a higher number of ICD codes than MIMIC-III. Our
open-source code offers easy access to data processing steps, benchmark
creation, and experiment replication for those with MIMIC-IV access, providing
insights, guidance, and protocols to efficiently develop ICD coding models.
- Abstract(参考訳): 臨床ノートにはicdコード(診断と処置のための一連のコード)が割り当てられている。
近年、自動ICD符号化のための予測機械学習モデルが構築されている。
しかし、大規模な公開EHRデータに基づく自動ICD符号化モデルに対する広く受け入れられているベンチマークは欠如している。
本稿では,最新の公開EHRデータセットであるMIMIC-IVから派生した大規模なEHRデータセットを用いて,ICD-10の公開ベンチマークスイートを提案する。
我々は,icd符号化予測タスクのための一般的な手法をいくつか実装・比較し,データプリプロセッシングを標準化し,総合的なicd符号化ベンチマークデータセットを構築した。
このアプローチは再現性とモデルの比較を助長し、将来の研究でicdコーディングを自動化するための進歩を加速する。
さらに、MIMIC-IVデータを用いた新しいICD-9ベンチマークを作成し、MIMIC-IIIよりもより多くのデータポイントと多くのICDコードを提供する。
我々のオープンソースコードは、MIMIC-IVアクセスを持つ人々に対して、データ処理ステップへの容易にアクセス、ベンチマーク作成、実験レプリケーションを提供し、ICDコーディングモデルを効率的に開発するための洞察、ガイダンス、プロトコルを提供します。
関連論文リスト
- Exploring LLM Multi-Agents for ICD Coding [15.730751450511333]
ICD符号化のためのマルチエージェント方式は実世界の符号化プロセスを効果的に模倣し、一般的な符号と稀な符号の両方の性能を向上させる。
提案手法は, 事前学習や微調整を必要とする最先端のICD符号化手法に匹敵する結果を得るとともに, 稀なコード精度, 説明可能性で性能を向上する。
論文 参考訳(メタデータ) (2024-04-01T15:17:39Z) - CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z) - Accurate and Well-Calibrated ICD Code Assignment Through Attention Over
Diverse Label Embeddings [1.201425717264024]
ICDコードを臨床テキストに手動で割り当てるのは、時間がかかり、エラーが発生し、コストがかかる。
本稿では,ICDの自動符号化のための新しい手法について述べる。
MIMIC-IIIデータセットの異なる分割による実験は、提案手法がICD符号化における現在の最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-05T16:40:23Z) - Training Data Protection with Compositional Diffusion Models [99.46239561159953]
比較拡散モデル(CDM)は、異なるデータソース上で異なる拡散モデル(またはプロンプト)を訓練する手法である。
個々のモデルは、独立した、異なるタイミングで、異なる分散とドメインでトレーニングすることができる。
各モデルには、トレーニング中に露出したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にする。
論文 参考訳(メタデータ) (2023-08-02T23:27:49Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt [7.554528566861559]
本研究では,このマルチラベル分類タスクを自己回帰生成タスクに変換する。
ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成する。
MIMIC-III-few実験により,従来のMIMIC-III-full SOTAモデルよりも大幅に優れるマルコF130.2が得られた。
論文 参考訳(メタデータ) (2022-11-24T22:10:50Z) - CoPHE: A Count-Preserving Hierarchical Evaluation Metric in Large-Scale
Multi-Label Text Classification [70.554573538777]
ニューラルLMTCモデルの予測の階層的評価について論じる。
先行技術における構造化ラベル空間の表現における構造的問題について述べる。
深度に基づく表現を用いた階層的評価のための指標セットを提案する。
論文 参考訳(メタデータ) (2021-09-10T13:09:12Z) - Few-Shot Electronic Health Record Coding through Graph Contrastive
Learning [64.8138823920883]
我々は,グラフベースのEHRコーディングフレームワークであるCoGraphを用いて,頻繁かつ希少なICD符号の性能向上を図る。
CoGraphは、異なるICDコードからHEWEグラフ間の類似点と相似点を学習し、それら間で情報を転送する。
2つのグラフコントラスト学習スキームであるGSCLとGECLは、HEWEグラフ構造を利用して、転送可能な特徴を符号化する。
論文 参考訳(メタデータ) (2021-06-29T14:53:17Z) - Medical Code Prediction from Discharge Summary: Document to Sequence
BERT using Sequence Attention [0.0]
ICD符号の自動割り当てにシーケンスアテンション法を用いた変換器(BERT)からの双方向エンコーダ表現に基づくモデルを提案する。
我々はMIMIC-IIIベンチマークデータセットのap-proachを評価した。
論文 参考訳(メタデータ) (2021-06-15T07:35:50Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - BERT-XML: Large Scale Automated ICD Coding Using BERT Pretraining [6.241494296494434]
EHRノートから大規模自動ICD符号化のための機械学習モデルBERT-XMLを提案する。
EHRのノートのスクラッチからBERTモデルをトレーニングし、EHRのタスクに適した語彙で学習します。
我々は、数百万の EHR ノートを用いて、数千のユニークなICD コードを予測する最初の大規模 ICD-10 分類モデルを作成する。
論文 参考訳(メタデータ) (2020-05-26T21:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。