論文の概要: Predicting Multiple ICD-10 Codes from Brazilian-Portuguese Clinical
Notes
- arxiv url: http://arxiv.org/abs/2008.01515v1
- Date: Wed, 29 Jul 2020 22:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 19:34:25.020612
- Title: Predicting Multiple ICD-10 Codes from Brazilian-Portuguese Clinical
Notes
- Title(参考訳): ブラジル・ポルトガル臨床ノートによる複数ICD-10符号の予測
- Authors: Arthur D. Reys, Danilo Silva, Daniel Severo, Saulo Pedro, Marcia M. de
Souza e S\'a, Guilherme A. C. Salgado
- Abstract要約: 我々は,ロジスティック回帰モデル,畳み込みニューラルネットワーク (CNN) , Gated Recurrent Unit Neural Network, CNN を開発した。
MIMIC-IIIと比較すると、ブラジルのポルトガル語のデータセットは1文書あたりの単語がはるかに少ない。
CNN-Attモデルでは,MIMIC-IIIでは平均0.537点,追加文書では0.485点のマイクロ平均F1スコアが得られた。
- 参考スコア(独自算出の注目度): 4.971638713979981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ICD coding from electronic clinical records is a manual, time-consuming and
expensive process. Code assignment is, however, an important task for billing
purposes and database organization. While many works have studied the problem
of automated ICD coding from free text using machine learning techniques, most
use records in the English language, especially from the MIMIC-III public
dataset. This work presents results for a dataset with Brazilian Portuguese
clinical notes. We develop and optimize a Logistic Regression model, a
Convolutional Neural Network (CNN), a Gated Recurrent Unit Neural Network and a
CNN with Attention (CNN-Att) for prediction of diagnosis ICD codes. We also
report our results for the MIMIC-III dataset, which outperform previous work
among models of the same families, as well as the state of the art. Compared to
MIMIC-III, the Brazilian Portuguese dataset contains far fewer words per
document, when only discharge summaries are used. We experiment concatenating
additional documents available in this dataset, achieving a great boost in
performance. The CNN-Att model achieves the best results on both datasets, with
micro-averaged F1 score of 0.537 on MIMIC-III and 0.485 on our dataset with
additional documents.
- Abstract(参考訳): 電子臨床記録からのICDコーディングは、手作業で、時間がかかり、高価なプロセスである。
しかし、コードの割り当ては請求目的とデータベース組織にとって重要なタスクである。
多くの研究が機械学習技術を用いて自由テキストから自動ICDコーディングの問題を研究しているが、ほとんどの研究は英語、特にMIMIC-III公開データセットで記録を使用している。
本研究はブラジルのポルトガル語臨床ノートを用いたデータセットの結果を示す。
本研究では,ロジスティック回帰モデル,畳み込みニューラルネットワーク(cnn),ゲートリカレントユニットニューラルネットワーク,注意付きcnn(cnn-att)を開発し最適化し,icd符号の予測を行う。
また,同じ家系のモデルや芸術の状況において,先行研究よりも優れるmime-iiiデータセットについて報告する。
MIMIC-IIIと比較すると、ブラジルのポルトガル語のデータセットは1文書あたりの単語がはるかに少ない。
このデータセットで利用可能な追加ドキュメントの結合を実験し、パフォーマンスを大幅に向上させる。
CNN-Attモデルでは,MIMIC-IIIでは平均0.537点,追加文書では0.485点のマイクロ平均F1スコアが得られた。
関連論文リスト
- Improving ICD coding using Chapter based Named Entities and Attentional Models [0.0]
我々は、章ベースの名前付きエンティティと注意モデルを用いて、F1スコアを改善するICD符号化の強化アプローチを導入する。
本手法は, 放電サマリーをICD-9章に分類し, 章別データを用いた注意モデルを開発する。
分類には第IV章を使用し、ニューラルネットワークを使わずに重要な要素や重みをデバイアスし、影響を及ぼす。
論文 参考訳(メタデータ) (2024-07-24T12:34:23Z) - Predicting Infant Brain Connectivity with Federated Multi-Trajectory
GNNs using Scarce Data [54.55126643084341]
既存のディープラーニングソリューションには,3つの大きな制限がある。
我々はフェデレートグラフベースの多軌道進化ネットワークであるFedGmTE-Net++を紹介する。
フェデレーションの力を利用して、限られたデータセットを持つ多種多様な病院の地域学習を集約する。
論文 参考訳(メタデータ) (2024-01-01T10:20:01Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt [7.554528566861559]
本研究では,このマルチラベル分類タスクを自己回帰生成タスクに変換する。
ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成する。
MIMIC-III-few実験により,従来のMIMIC-III-full SOTAモデルよりも大幅に優れるマルコF130.2が得られた。
論文 参考訳(メタデータ) (2022-11-24T22:10:50Z) - Hierarchical Label-wise Attention Transformer Model for Explainable ICD
Coding [10.387366211090734]
臨床文書からのICD符号の予測のための階層型ラベル対応アテンショントランスフォーマモデル (HiLAT) を提案する。
MIMIC-IIIデータベースから,病院の退院サマリーと対応するICD-9符号を用いたHiLATの評価を行った。
注意重みの可視化は、ICDコード予測の顔の妥当性を確認するための潜在的な説明可能性ツールを示す。
論文 参考訳(メタデータ) (2022-04-22T14:12:22Z) - ICDBigBird: A Contextual Embedding Model for ICD Code Classification [71.58299917476195]
文脈単語埋め込みモデルは、複数のNLPタスクにおいて最先端の結果を得た。
ICDBigBirdは、Graph Convolutional Network(GCN)を統合するBigBirdベースのモデルである。
ICD分類作業におけるBigBirdモデルの有効性を実世界の臨床データセットで実証した。
論文 参考訳(メタデータ) (2022-04-21T20:59:56Z) - Secondary Use of Clinical Problem List Entries for Neural Network-Based
Disease Code Assignment [1.3190581566723918]
国際疾患分類(ICD-10)を用いた50文字長大臨床問題リストの自動符号化の検討
fastTextベースラインは、マクロ平均F1スコアの0.83に到達し、その後、マクロ平均F1スコアの0.84に文字レベルLSTMが続いた。
ニューラルネットワークのアクティベーション分析と、偽陽性と偽陰性の調査により、一貫性のない手動コーディングが主な制限因子として明らかにされた。
論文 参考訳(メタデータ) (2021-12-27T16:11:05Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - An Explainable CNN Approach for Medical Codes Prediction from Clinical
Text [1.7746314978241657]
我々は集中治療室(ICU)における臨床テキストに基づくCNNベースの自動ICD符号化法を開発した。
私たちは、私たちのモデルが各ラベルの局所的および低レベルの機能を学ぶことを可能にするShallow and Wide Attention Convolutional Mechanism(SWAM)を思いつきました。
論文 参考訳(メタデータ) (2021-01-14T02:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。