論文の概要: BERT-XML: Large Scale Automated ICD Coding Using BERT Pretraining
- arxiv url: http://arxiv.org/abs/2006.03685v1
- Date: Tue, 26 May 2020 21:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:21:52.362943
- Title: BERT-XML: Large Scale Automated ICD Coding Using BERT Pretraining
- Title(参考訳): BERT-XML:BERT事前学習を用いた大規模自動ICD符号化
- Authors: Zachariah Zhang, Jingshu Liu, Narges Razavian
- Abstract要約: EHRノートから大規模自動ICD符号化のための機械学習モデルBERT-XMLを提案する。
EHRのノートのスクラッチからBERTモデルをトレーニングし、EHRのタスクに適した語彙で学習します。
我々は、数百万の EHR ノートを用いて、数千のユニークなICD コードを予測する最初の大規模 ICD-10 分類モデルを作成する。
- 参考スコア(独自算出の注目度): 6.241494296494434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical interactions are initially recorded and documented in free text
medical notes. ICD coding is the task of classifying and coding all diagnoses,
symptoms and procedures associated with a patient's visit. The process is often
manual and extremely time-consuming and expensive for hospitals. In this paper,
we propose a machine learning model, BERT-XML, for large scale automated ICD
coding from EHR notes, utilizing recently developed unsupervised pretraining
that have achieved state of the art performance on a variety of NLP tasks. We
train a BERT model from scratch on EHR notes, learning with vocabulary better
suited for EHR tasks and thus outperform off-the-shelf models. We adapt the
BERT architecture for ICD coding with multi-label attention. While other works
focus on small public medical datasets, we have produced the first large scale
ICD-10 classification model using millions of EHR notes to predict thousands of
unique ICD codes.
- Abstract(参考訳): 臨床相互作用は、最初は無料のテキスト医療ノートに記録され、記録される。
ICDコーディングは、患者の訪問に関連するすべての診断、症状、手順を分類し、コーディングするタスクである。
このプロセスは多くの場合手作業であり、病院にとって非常に時間がかかる。
本稿では,多種多様なNLPタスクにおけるアートパフォーマンスの状態を達成した教師なし事前学習を利用して,大規模自動ICD符号化のための機械学習モデルBERT-XMLを提案する。
EHRのノートのスクラッチからBERTモデルをトレーニングし、EHRのタスクに適した語彙で学習することで、既製のモデルよりも優れています。
ICD符号化におけるBERTアーキテクチャを多言語対応で適用する。
他の研究は、小さな公開医療データセットに焦点を当てているが、何千ものユニークなICDコードを予測するために何百万ものEHRノートを使用して、最初の大規模なICD-10分類モデルを作成してきた。
関連論文リスト
- CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z) - Automated clinical coding using off-the-shelf large language models [10.365958121087305]
診断用ICD符号を患者病院入院に割り当てる作業は、典型的には、熟練した人間のコーダーによって行われる。
自動ICD符号化への取り組みは、教師付きディープラーニングモデルによって支配されている。
本研究では,既製の事前学習型大規模言語モデルを活用し,実用的ソリューションを開発する。
論文 参考訳(メタデータ) (2023-10-10T11:56:48Z) - Mimic-IV-ICD: A new benchmark for eXtreme MultiLabel Classification [15.447334151024005]
本稿では,MIMIC-IV から派生した大規模な EHR データセットを用いた ICD-10 符号化のための公開ベンチマークスイートを提案する。
我々はMIMIC-IVデータを用いた新しいICD-9ベンチマークを作成し、MIMIC-IIIよりも多くのデータポイントと多くのICDコードを提供する。
論文 参考訳(メタデータ) (2023-04-27T07:36:14Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Few-Shot Electronic Health Record Coding through Graph Contrastive
Learning [64.8138823920883]
我々は,グラフベースのEHRコーディングフレームワークであるCoGraphを用いて,頻繁かつ希少なICD符号の性能向上を図る。
CoGraphは、異なるICDコードからHEWEグラフ間の類似点と相似点を学習し、それら間で情報を転送する。
2つのグラフコントラスト学習スキームであるGSCLとGECLは、HEWEグラフ構造を利用して、転送可能な特徴を符号化する。
論文 参考訳(メタデータ) (2021-06-29T14:53:17Z) - Towards BERT-based Automatic ICD Coding: Limitations and Opportunities [6.2211479935811775]
バイオメディカル言語理解のための最先端トランスフォーマモデルであるPubMedBERTを用いたICD符号化について検討する。
ICD符号化におけるBERTモデルの主な制限は,長いテキストでモデルを微調整することの難しさにある。
BERTベースのICDコーディングを改善するための主な必要性として、長いテキストから情報を集約するより良い方法を挙げます。
論文 参考訳(メタデータ) (2021-04-14T09:12:53Z) - Active learning for medical code assignment [55.99831806138029]
臨床領域における多ラベルテキスト分類におけるアクティブラーニング(AL)の有効性を示す。
MIMIC-IIIデータセットにICD-9コードを自動的に割り当てるために、よく知られたALメソッドのセットを適用します。
その結果、有益なインスタンスの選択は、大幅に減少したトレーニングセットで満足のいく分類を提供する。
論文 参考訳(メタデータ) (2021-04-12T18:11:17Z) - From Extreme Multi-label to Multi-class: A Hierarchical Approach for
Automated ICD-10 Coding Using Phrase-level Attention [4.387302129801651]
臨床コーディングは、ICD(International Classification of Diseases)と呼ばれる一組のアルファ数値符号を、臨床物語で捉えた文脈に基づいて医療イベントに割り当てるタスクである。
本論文では, 階層的解を用いて, 極限多ラベル問題から単純多クラス問題へ再構成し, 自動ICD符号化のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:19:14Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - A Label Attention Model for ICD Coding from Clinical Text [14.910833190248319]
自動ICD符号化のための新しいラベルアテンションモデルを提案する。
ICDコードに関連するテキストフラグメントの様々な長さと相互依存の両方を扱うことができる。
本モデルでは,3つのベンチマークMIMICデータセットに対して,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2020-07-13T12:42:43Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。