論文の概要: Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt
- arxiv url: http://arxiv.org/abs/2211.13813v1
- Date: Thu, 24 Nov 2022 22:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:39:16.614712
- Title: Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt
- Title(参考訳): プロンプトによる自己回帰生成のためのマルチラベル・少数ショットicd符号化
- Authors: Zhichao Yang, Sunjae Kwon, Zonghai Yao, Hong Yu
- Abstract要約: 本研究では,このマルチラベル分類タスクを自己回帰生成タスクに変換する。
ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成する。
MIMIC-III-few実験により,従来のMIMIC-III-full SOTAモデルよりも大幅に優れるマルコF130.2が得られた。
- 参考スコア(独自算出の注目度): 7.554528566861559
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic International Classification of Diseases (ICD) coding aims to
assign multiple ICD codes to a medical note with an average of 3,000+ tokens.
This task is challenging due to the high-dimensional space of multi-label
assignment (155,000+ ICD code candidates) and the long-tail challenge - Many
ICD codes are infrequently assigned yet infrequent ICD codes are important
clinically. This study addresses the long-tail challenge by transforming this
multi-label classification task into an autoregressive generation task.
Specifically, we first introduce a novel pretraining objective to generate free
text diagnoses and procedure using the SOAP structure, the medical logic
physicians use for note documentation. Second, instead of directly predicting
the high dimensional space of ICD codes, our model generates the lower
dimension of text descriptions, which then infer ICD codes. Third, we designed
a novel prompt template for multi-label classification. We evaluate our
Generation with Prompt model with the benchmark of all code assignment
(MIMIC-III-full) and few shot ICD code assignment evaluation benchmark
(MIMIC-III-few). Experiments on MIMIC-III-few show that our model performs with
a marco F1 30.2, which substantially outperforms the previous MIMIC-III-full
SOTA model (marco F1 4.3) and the model specifically designed for few/zero shot
setting (marco F1 18.7). Finally, we design a novel ensemble learner, a cross
attention reranker with prompts, to integrate previous SOTA and our best
few-shot coding predictions. Experiments on MIMIC-III-full show that our
ensemble learner substantially improves both macro and micro F1, from 10.4 to
14.6 and from 58.2 to 59.1, respectively.
- Abstract(参考訳): ICD(Automatic International Classification of Diseases)コーディングは、平均3000以上のトークンを持つ医療用メモに複数のICD符号を割り当てることを目的としている。
この課題は、多ラベル代入の高次元空間(155,000以上のICDコード候補)と長期的課題のため、困難である。
本研究では,この多ラベル分類タスクを自己回帰生成タスクに変換することで,長期的課題に対処する。
具体的には, 医師が注記資料に使用するsoap構造を用いて, 無料のテキスト診断と手順を生成するための新しい事前学習目標について紹介する。
第二に、ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成し、ICD符号を推測する。
第3に,マルチラベル分類のための新しいプロンプトテンプレートを設計した。
全符号割り当て(MIMIC-III-full)とショットICD符号割り当て評価(MIMIC-III-few)のベンチマークを用いてPromptモデルによる生成を評価する。
mimic-iii-few 実験により,本モデルがmarco-iii-full sota モデル (marco f1 4.3) を実質的に上回る marco f1 30.2 で動作し,n/nショットセッティング用に特別に設計されたモデル (marco f1 18.7) が得られた。
最後に,新しいアンサンブル学習者,プロンプト付きクロスアテンション・リランカを設計し,従来のSOTAと最高の数発の符号化予測を統合する。
MIMIC-III-full実験により,マイクロF1とマクロF1をそれぞれ10.4から14.6に,58.2から59.1に改善した。
関連論文リスト
- CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z) - Can GPT-3.5 Generate and Code Discharge Summaries? [45.633849969788315]
ICD-10のコード記述リストに基づいて,9,606個の放電サマリーを生成し,符号化した。
ニューラルネットワークモデルはベースラインと拡張データに基づいて訓練された。
マイクロF1スコアとマクロF1スコアを全コードセット、生成コードおよびそれらの家族について報告する。
論文 参考訳(メタデータ) (2024-01-24T15:10:13Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Knowledge Injected Prompt Based Fine-tuning for Multi-label Few-shot ICD
Coding [7.8183215844641]
本研究は,ラベルセマンティクスを用いたプロンプトベースファインチューニング手法を適用することで,長期的課題に対処する。
コード代入のベンチマークデータセットであるMIMIC-III-fullの実験により,提案手法はマルコF1の14.5%で従来の最先端手法よりも優れた性能を示した。
本モデルでは, マルコF1を17.1から30.4に改善し, マイクロF1を17.2から32.6に改善した。
論文 参考訳(メタデータ) (2022-10-07T03:25:58Z) - Hierarchical Label-wise Attention Transformer Model for Explainable ICD
Coding [10.387366211090734]
臨床文書からのICD符号の予測のための階層型ラベル対応アテンショントランスフォーマモデル (HiLAT) を提案する。
MIMIC-IIIデータベースから,病院の退院サマリーと対応するICD-9符号を用いたHiLATの評価を行った。
注意重みの可視化は、ICDコード予測の顔の妥当性を確認するための潜在的な説明可能性ツールを示す。
論文 参考訳(メタデータ) (2022-04-22T14:12:22Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - CoPHE: A Count-Preserving Hierarchical Evaluation Metric in Large-Scale
Multi-Label Text Classification [70.554573538777]
ニューラルLMTCモデルの予測の階層的評価について論じる。
先行技術における構造化ラベル空間の表現における構造的問題について述べる。
深度に基づく表現を用いた階層的評価のための指標セットを提案する。
論文 参考訳(メタデータ) (2021-09-10T13:09:12Z) - Medical Code Prediction from Discharge Summary: Document to Sequence
BERT using Sequence Attention [0.0]
ICD符号の自動割り当てにシーケンスアテンション法を用いた変換器(BERT)からの双方向エンコーダ表現に基づくモデルを提案する。
我々はMIMIC-IIIベンチマークデータセットのap-proachを評価した。
論文 参考訳(メタデータ) (2021-06-15T07:35:50Z) - From Extreme Multi-label to Multi-class: A Hierarchical Approach for
Automated ICD-10 Coding Using Phrase-level Attention [4.387302129801651]
臨床コーディングは、ICD(International Classification of Diseases)と呼ばれる一組のアルファ数値符号を、臨床物語で捉えた文脈に基づいて医療イベントに割り当てるタスクである。
本論文では, 階層的解を用いて, 極限多ラベル問題から単純多クラス問題へ再構成し, 自動ICD符号化のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:19:14Z) - A Label Attention Model for ICD Coding from Clinical Text [14.910833190248319]
自動ICD符号化のための新しいラベルアテンションモデルを提案する。
ICDコードに関連するテキストフラグメントの様々な長さと相互依存の両方を扱うことができる。
本モデルでは,3つのベンチマークMIMICデータセットに対して,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2020-07-13T12:42:43Z) - Students Need More Attention: BERT-based AttentionModel for Small Data
with Application to AutomaticPatient Message Triage [65.7062363323781]
BioBERT (Bidirectional Representations from Transformers for Biomedical Text Mining) に基づく新しいフレームワークを提案する。
LESA-BERTと呼ぶBERTの各層にラベル埋め込みを導入し、(ii)LESA-BERTを小さな変種に蒸留することにより、小さなデータセットで作業する際のオーバーフィッティングとモデルサイズを低減することを目指す。
アプリケーションとして,本フレームワークを用いて,患者ポータルメッセージトリアージのモデルを構築し,メッセージの緊急度を非緊急度,中度度,緊急度という3つのカテゴリに分類する。
論文 参考訳(メタデータ) (2020-06-22T03:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。