論文の概要: Knowledge Injected Prompt Based Fine-tuning for Multi-label Few-shot ICD
Coding
- arxiv url: http://arxiv.org/abs/2210.03304v1
- Date: Fri, 7 Oct 2022 03:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 13:51:33.801482
- Title: Knowledge Injected Prompt Based Fine-tuning for Multi-label Few-shot ICD
Coding
- Title(参考訳): 知識注入プロンプトに基づく多段数ショットicd符号化の微調整
- Authors: Zhichao Yang, Shufan Wang, Bhanu Pratap Singh Rawat, Avijit Mitra,
Hong Yu
- Abstract要約: 本研究は,ラベルセマンティクスを用いたプロンプトベースファインチューニング手法を適用することで,長期的課題に対処する。
コード代入のベンチマークデータセットであるMIMIC-III-fullの実験により,提案手法はマルコF1の14.5%で従来の最先端手法よりも優れた性能を示した。
本モデルでは, マルコF1を17.1から30.4に改善し, マイクロF1を17.2から32.6に改善した。
- 参考スコア(独自算出の注目度): 7.8183215844641
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic International Classification of Diseases (ICD) coding aims to
assign multiple ICD codes to a medical note with average length of 3,000+
tokens. This task is challenging due to a high-dimensional space of multi-label
assignment (tens of thousands of ICD codes) and the long-tail challenge: only a
few codes (common diseases) are frequently assigned while most codes (rare
diseases) are infrequently assigned. This study addresses the long-tail
challenge by adapting a prompt-based fine-tuning technique with label
semantics, which has been shown to be effective under few-shot setting. To
further enhance the performance in medical domain, we propose a
knowledge-enhanced longformer by injecting three domain-specific knowledge:
hierarchy, synonym, and abbreviation with additional pretraining using
contrastive learning. Experiments on MIMIC-III-full, a benchmark dataset of
code assignment, show that our proposed method outperforms previous
state-of-the-art method in 14.5% in marco F1 (from 10.3 to 11.8, P<0.001). To
further test our model on few-shot setting, we created a new rare diseases
coding dataset, MIMIC-III-rare50, on which our model improves marco F1 from
17.1 to 30.4 and micro F1 from 17.2 to 32.6 compared to previous method.
- Abstract(参考訳): ICD(Automatic International Classification of Diseases)コーディングは、ICD符号を平均3000以上のトークンを持つ医療用メモに割り当てることを目的としている。
この課題は、多ラベル代入(数十万のICD符号)の高次元空間と長期的課題のため、しばしば少数のコード(一般的な疾患)が割り当てられる一方、ほとんどのコード(稀な疾患)が頻繁に割り当てられる。
本研究では,プロンプトベースの微調整手法をラベルセマンティクスに適応させることにより,長期的課題に対処する。
医学領域での性能をさらに高めるために,階層構造,同義語,略語という3つのドメイン固有の知識を,コントラスト学習を用いた追加事前学習で注入することで,知識エンハンス型ロングフォーマを提案する。
コード代入のベンチマークデータセットMIMIC-III-fullの実験により,提案手法はマルコF1(10.3から11.8,P<0.001)において,従来の最先端手法よりも14.5%高い性能を示した。
そこで我々は,新たな稀な疾患符号化データセットMIMIC-III-rare50を作成し,マーコF1を17.1から30.4に,マイクロF1を17.2から32.6に改善した。
関連論文リスト
- PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Auxiliary Knowledge-Induced Learning for Automatic Multi-Label Medical Document Classification [22.323705343864336]
3つのアイデアを取り入れた新しいICDインデクシング手法を提案する。
臨床ノートから情報を収集するために,多レベル深部拡張残差畳み込みエンコーダを用いた。
我々はICD分類の課題を医療記録の補助的知識で定式化する。
論文 参考訳(メタデータ) (2024-05-29T13:44:07Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt [7.554528566861559]
本研究では,このマルチラベル分類タスクを自己回帰生成タスクに変換する。
ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成する。
MIMIC-III-few実験により,従来のMIMIC-III-full SOTAモデルよりも大幅に優れるマルコF130.2が得られた。
論文 参考訳(メタデータ) (2022-11-24T22:10:50Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Statistical Dependency Guided Contrastive Learning for Multiple Labeling
in Prenatal Ultrasound [56.631021151764955]
標準平面認識は出生前超音波(US)スクリーニングにおいて重要な役割を担っている。
我々は,複数の標準平面と対応する解剖学的構造を同時に識別する,新しいマルチラベル学習手法を構築した。
論文 参考訳(メタデータ) (2021-08-11T06:39:26Z) - Medical Code Prediction from Discharge Summary: Document to Sequence
BERT using Sequence Attention [0.0]
ICD符号の自動割り当てにシーケンスアテンション法を用いた変換器(BERT)からの双方向エンコーダ表現に基づくモデルを提案する。
我々はMIMIC-IIIベンチマークデータセットのap-proachを評価した。
論文 参考訳(メタデータ) (2021-06-15T07:35:50Z) - From Extreme Multi-label to Multi-class: A Hierarchical Approach for
Automated ICD-10 Coding Using Phrase-level Attention [4.387302129801651]
臨床コーディングは、ICD(International Classification of Diseases)と呼ばれる一組のアルファ数値符号を、臨床物語で捉えた文脈に基づいて医療イベントに割り当てるタスクである。
本論文では, 階層的解を用いて, 極限多ラベル問題から単純多クラス問題へ再構成し, 自動ICD符号化のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:19:14Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - A Label Attention Model for ICD Coding from Clinical Text [14.910833190248319]
自動ICD符号化のための新しいラベルアテンションモデルを提案する。
ICDコードに関連するテキストフラグメントの様々な長さと相互依存の両方を扱うことができる。
本モデルでは,3つのベンチマークMIMICデータセットに対して,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2020-07-13T12:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。