論文の概要: Towards BERT-based Automatic ICD Coding: Limitations and Opportunities
- arxiv url: http://arxiv.org/abs/2104.06709v1
- Date: Wed, 14 Apr 2021 09:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:37:04.100565
- Title: Towards BERT-based Automatic ICD Coding: Limitations and Opportunities
- Title(参考訳): BERTベースの自動ICD符号化に向けて:限界と機会
- Authors: Damian Pascual, Sandro Luck, Roger Wattenhofer
- Abstract要約: バイオメディカル言語理解のための最先端トランスフォーマモデルであるPubMedBERTを用いたICD符号化について検討する。
ICD符号化におけるBERTモデルの主な制限は,長いテキストでモデルを微調整することの難しさにある。
BERTベースのICDコーディングを改善するための主な必要性として、長いテキストから情報を集約するより良い方法を挙げます。
- 参考スコア(独自算出の注目度): 6.2211479935811775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic ICD coding is the task of assigning codes from the International
Classification of Diseases (ICD) to medical notes. These codes describe the
state of the patient and have multiple applications, e.g., computer-assisted
diagnosis or epidemiological studies. ICD coding is a challenging task due to
the complexity and length of medical notes. Unlike the general trend in
language processing, no transformer model has been reported to reach high
performance on this task. Here, we investigate in detail ICD coding using
PubMedBERT, a state-of-the-art transformer model for biomedical language
understanding. We find that the difficulty of fine-tuning the model on long
pieces of text is the main limitation for BERT-based models on ICD coding. We
run extensive experiments and show that despite the gap with current
state-of-the-art, pretrained transformers can reach competitive performance
using relatively small portions of text. We point at better methods to
aggregate information from long texts as the main need for improving BERT-based
ICD coding.
- Abstract(参考訳): 自動icdコーディング(automatic icd coding)は、国際疾病分類(icd)から医療記録へのコード割り当ての作業である。
これらのコードは患者の状態を記述しており、コンピュータ支援診断や疫学研究など、複数の応用がある。
ICD符号化は、医療メモの複雑さと長さのために難しい課題である。
言語処理の一般的な傾向とは異なり、このタスクで高い性能に達するトランスフォーマーモデルは報告されていない。
本稿では,バイオメディカル言語理解のための最先端トランスフォーマモデルであるPubMedBERTを用いたICD符号化について詳細に検討する。
ICD符号化におけるBERTモデルの主な制限は,長いテキストでモデルを微調整することの難しさにある。
我々は,現在最先端の変圧器との差があるにもかかわらず,比較的少数のテキストを用いて,競争性能に到達できることを示す。
我々は長文からの情報を集約するより良い手法をBERTベースのICD符号化の改善の要点として挙げる。
関連論文リスト
- Auxiliary Knowledge-Induced Learning for Automatic Multi-Label Medical Document Classification [22.323705343864336]
3つのアイデアを取り入れた新しいICDインデクシング手法を提案する。
臨床ノートから情報を収集するために,多レベル深部拡張残差畳み込みエンコーダを用いた。
我々はICD分類の課題を医療記録の補助的知識で定式化する。
論文 参考訳(メタデータ) (2024-05-29T13:44:07Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z) - Accurate and Well-Calibrated ICD Code Assignment Through Attention Over
Diverse Label Embeddings [1.201425717264024]
ICDコードを臨床テキストに手動で割り当てるのは、時間がかかり、エラーが発生し、コストがかかる。
本稿では,ICDの自動符号化のための新しい手法について述べる。
MIMIC-IIIデータセットの異なる分割による実験は、提案手法がICD符号化における現在の最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-05T16:40:23Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - TransICD: Transformer Based Code-wise Attention Model for Explainable
ICD Coding [5.273190477622007]
国際疾患分類法 (ICD) は, 医療分野の請求システムにおいて有効かつ重要であることが示されている。
現在、ICDコードは手動で臨床メモに割り当てられており、多くのエラーを引き起こす可能性がある。
本稿では,文書のトークン間の相互依存を捉えるためにトランスフォーマーベースのアーキテクチャを適用し,コードワイド・アテンション・メカニズムを用いて文書全体のコード固有表現を学習する。
論文 参考訳(メタデータ) (2021-03-28T05:34:32Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - A Label Attention Model for ICD Coding from Clinical Text [14.910833190248319]
自動ICD符号化のための新しいラベルアテンションモデルを提案する。
ICDコードに関連するテキストフラグメントの様々な長さと相互依存の両方を扱うことができる。
本モデルでは,3つのベンチマークMIMICデータセットに対して,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2020-07-13T12:42:43Z) - BERT-XML: Large Scale Automated ICD Coding Using BERT Pretraining [6.241494296494434]
EHRノートから大規模自動ICD符号化のための機械学習モデルBERT-XMLを提案する。
EHRのノートのスクラッチからBERTモデルをトレーニングし、EHRのタスクに適した語彙で学習します。
我々は、数百万の EHR ノートを用いて、数千のユニークなICD コードを予測する最初の大規模 ICD-10 分類モデルを作成する。
論文 参考訳(メタデータ) (2020-05-26T21:12:43Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。