論文の概要: Knowledge Injected Prompt Based Fine-tuning for Multi-label Few-shot ICD
Coding
- arxiv url: http://arxiv.org/abs/2210.03304v1
- Date: Fri, 7 Oct 2022 03:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 13:51:33.801482
- Title: Knowledge Injected Prompt Based Fine-tuning for Multi-label Few-shot ICD
Coding
- Title(参考訳): 知識注入プロンプトに基づく多段数ショットicd符号化の微調整
- Authors: Zhichao Yang, Shufan Wang, Bhanu Pratap Singh Rawat, Avijit Mitra,
Hong Yu
- Abstract要約: 本研究は,ラベルセマンティクスを用いたプロンプトベースファインチューニング手法を適用することで,長期的課題に対処する。
コード代入のベンチマークデータセットであるMIMIC-III-fullの実験により,提案手法はマルコF1の14.5%で従来の最先端手法よりも優れた性能を示した。
本モデルでは, マルコF1を17.1から30.4に改善し, マイクロF1を17.2から32.6に改善した。
- 参考スコア(独自算出の注目度): 7.8183215844641
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic International Classification of Diseases (ICD) coding aims to
assign multiple ICD codes to a medical note with average length of 3,000+
tokens. This task is challenging due to a high-dimensional space of multi-label
assignment (tens of thousands of ICD codes) and the long-tail challenge: only a
few codes (common diseases) are frequently assigned while most codes (rare
diseases) are infrequently assigned. This study addresses the long-tail
challenge by adapting a prompt-based fine-tuning technique with label
semantics, which has been shown to be effective under few-shot setting. To
further enhance the performance in medical domain, we propose a
knowledge-enhanced longformer by injecting three domain-specific knowledge:
hierarchy, synonym, and abbreviation with additional pretraining using
contrastive learning. Experiments on MIMIC-III-full, a benchmark dataset of
code assignment, show that our proposed method outperforms previous
state-of-the-art method in 14.5% in marco F1 (from 10.3 to 11.8, P<0.001). To
further test our model on few-shot setting, we created a new rare diseases
coding dataset, MIMIC-III-rare50, on which our model improves marco F1 from
17.1 to 30.4 and micro F1 from 17.2 to 32.6 compared to previous method.
- Abstract(参考訳): ICD(Automatic International Classification of Diseases)コーディングは、ICD符号を平均3000以上のトークンを持つ医療用メモに割り当てることを目的としている。
この課題は、多ラベル代入(数十万のICD符号)の高次元空間と長期的課題のため、しばしば少数のコード(一般的な疾患)が割り当てられる一方、ほとんどのコード(稀な疾患)が頻繁に割り当てられる。
本研究では,プロンプトベースの微調整手法をラベルセマンティクスに適応させることにより,長期的課題に対処する。
医学領域での性能をさらに高めるために,階層構造,同義語,略語という3つのドメイン固有の知識を,コントラスト学習を用いた追加事前学習で注入することで,知識エンハンス型ロングフォーマを提案する。
コード代入のベンチマークデータセットMIMIC-III-fullの実験により,提案手法はマルコF1(10.3から11.8,P<0.001)において,従来の最先端手法よりも14.5%高い性能を示した。
そこで我々は,新たな稀な疾患符号化データセットMIMIC-III-rare50を作成し,マーコF1を17.1から30.4に,マイクロF1を17.2から32.6に改善した。
関連論文リスト
- Can GPT-3.5 Generate and Code Discharge Summaries? [47.15223342232822]
ICD-10のコード記述リストに基づいて,9,606個の放電サマリーを生成し,符号化した。
ニューラルネットワークモデルはベースラインと拡張データに基づいて訓練された。
マイクロF1スコアとマクロF1スコアを全コードセット、生成コードおよびそれらの家族について報告する。
論文 参考訳(メタデータ) (2024-01-24T15:10:13Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [59.37561810438641]
本研究では,放射線画像における大規模大語彙疾患分類の問題点について検討する。
i)データセット構築では、39,026ケース(192,675スキャン)を含む930のユニークなICD-10-CMコードとリンクした5568の障害を含む、学術的にアクセス可能な大規模診断データセットを構築します。
さらに,本研究の最終モデルは事前学習モデルとして機能し,様々な外部データセットの診断に役立てることができる。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt [7.554528566861559]
本研究では,このマルチラベル分類タスクを自己回帰生成タスクに変換する。
ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成する。
MIMIC-III-few実験により,従来のMIMIC-III-full SOTAモデルよりも大幅に優れるマルコF130.2が得られた。
論文 参考訳(メタデータ) (2022-11-24T22:10:50Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Statistical Dependency Guided Contrastive Learning for Multiple Labeling
in Prenatal Ultrasound [56.631021151764955]
標準平面認識は出生前超音波(US)スクリーニングにおいて重要な役割を担っている。
我々は,複数の標準平面と対応する解剖学的構造を同時に識別する,新しいマルチラベル学習手法を構築した。
論文 参考訳(メタデータ) (2021-08-11T06:39:26Z) - Medical Code Prediction from Discharge Summary: Document to Sequence
BERT using Sequence Attention [0.0]
ICD符号の自動割り当てにシーケンスアテンション法を用いた変換器(BERT)からの双方向エンコーダ表現に基づくモデルを提案する。
我々はMIMIC-IIIベンチマークデータセットのap-proachを評価した。
論文 参考訳(メタデータ) (2021-06-15T07:35:50Z) - From Extreme Multi-label to Multi-class: A Hierarchical Approach for
Automated ICD-10 Coding Using Phrase-level Attention [4.387302129801651]
臨床コーディングは、ICD(International Classification of Diseases)と呼ばれる一組のアルファ数値符号を、臨床物語で捉えた文脈に基づいて医療イベントに割り当てるタスクである。
本論文では, 階層的解を用いて, 極限多ラベル問題から単純多クラス問題へ再構成し, 自動ICD符号化のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:19:14Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - An Explainable CNN Approach for Medical Codes Prediction from Clinical
Text [1.7746314978241657]
我々は集中治療室(ICU)における臨床テキストに基づくCNNベースの自動ICD符号化法を開発した。
私たちは、私たちのモデルが各ラベルの局所的および低レベルの機能を学ぶことを可能にするShallow and Wide Attention Convolutional Mechanism(SWAM)を思いつきました。
論文 参考訳(メタデータ) (2021-01-14T02:05:34Z) - A Label Attention Model for ICD Coding from Clinical Text [14.910833190248319]
自動ICD符号化のための新しいラベルアテンションモデルを提案する。
ICDコードに関連するテキストフラグメントの様々な長さと相互依存の両方を扱うことができる。
本モデルでは,3つのベンチマークMIMICデータセットに対して,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2020-07-13T12:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。