論文の概要: Supervised Learning in the Presence of Noise: Application in ICD-10 Code
Classification
- arxiv url: http://arxiv.org/abs/2103.07808v1
- Date: Sat, 13 Mar 2021 23:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:33:16.927487
- Title: Supervised Learning in the Presence of Noise: Application in ICD-10 Code
Classification
- Title(参考訳): 騒音状態における教師付き学習:ICD-10コード分類への応用
- Authors: Youngwoo Kim, Cheng Li, Bingyang Ye, Amir Tahmasebi and Javed Aslam
- Abstract要約: 手動でICDコードを割り当てるのは、大きなコードの語彙とコード間の類似性のためにヒューマンエラーになりがちです。
機械学習に基づくアプローチは、真実のトレーニングデータを必要とするため、人間のコーダー間の矛盾はラベル付けにおけるノイズとして表される。
本稿では,手作業で割り当てられたicd-10符号の雑音特性を調査し,ラベリングノイズの存在下で頑健なicd-10分類器を訓練する方法を提案する。
- 参考スコア(独自算出の注目度): 4.186711841573965
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: ICD coding is the international standard for capturing and reporting health
conditions and diagnosis for revenue cycle management in healthcare. Manually
assigning ICD codes is prone to human error due to the large code vocabulary
and the similarities between codes. Since machine learning based approaches
require ground truth training data, the inconsistency among human coders is
manifested as noise in labeling, which makes the training and evaluation of ICD
classifiers difficult in presence of such noise. This paper investigates the
characteristics of such noise in manually-assigned ICD-10 codes and
furthermore, proposes a method to train robust ICD-10 classifiers in the
presence of labeling noise. Our research concluded that the nature of such
noise is systematic. Most of the existing methods for handling label noise
assume that the noise is completely random and independent of features or
labels, which is not the case for ICD data. Therefore, we develop a new method
for training robust classifiers in the presence of systematic noise. We first
identify ICD-10 codes that human coders tend to misuse or confuse, based on the
codes' locations in the ICD-10 hierarchy, the types of the codes, and baseline
classifier's prediction behaviors; we then develop a novel training strategy
that accounts for such noise. We compared our method with the baseline that
does not handle label noise and the baseline methods that assume random noise,
and demonstrated that our proposed method outperforms all baselines when
evaluated on expert validated labels.
- Abstract(参考訳): ICDコーディングは、健康状態の把握と報告、およびヘルスケアにおける収益サイクル管理のための診断のための国際標準です。
手動でICDコードを割り当てるのは、大きなコードの語彙とコード間の類似性のためにヒューマンエラーになりがちです。
機械学習に基づくアプローチは基礎的真理トレーニングデータを必要とするため、人間のコーダ間の不整合はラベリングのノイズとして表され、そのようなノイズの存在下でICD分類器のトレーニングと評価が困難になります。
本稿では,手作業で割り当てられたicd-10符号の雑音特性について検討し,ラベルノイズが存在する場合に頑健なicd-10分類器を訓練する方法を提案する。
我々の研究は、そのような騒音の性質は体系的であると結論づけた。
ラベルノイズを処理する既存の方法のほとんどは、ノイズが完全にランダムであり、機能やラベルに依存しないことを前提としています。
そこで,体系的雑音の存在下でロバスト分類器を訓練する新しい手法を開発した。
まず、ICD-10階層内のコードの位置、コードの種類、ベースライン分類器の予測行動に基づいて、人間のコーダが誤用または混同する傾向にあるICD-10コードを特定し、そのようなノイズを考慮に入れた新たなトレーニング戦略を開発する。
提案手法は,ラベルノイズを扱わないベースラインとランダムノイズを想定するベースラインを比較し,専門家の検証ラベルで評価した場合,提案手法がすべてのベースラインを上回ることを示した。
関連論文リスト
- Learning to Correct Noisy Labels for Fine-Grained Entity Typing via
Co-Prediction Prompt Tuning [9.885278527023532]
FETにおける雑音補正のためのコプレディション・プロンプト・チューニングを提案する。
ラベル付きラベルをリコールするために予測結果を統合し、区別されたマージンを用いて不正確なラベルを識別する。
広範に使われている3つのFETデータセットの実験結果から,我々のノイズ補正アプローチはトレーニングサンプルの品質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-10-23T06:04:07Z) - Noisy-label Learning with Sample Selection based on Noise Rate Estimate [30.922188228545906]
ノイズラベルは、ノイズラベルのトレーニングサンプルをオーバーフィットさせるディープモデルの容量が高いため、ディープラーニングでは困難である。
本稿では,最新技術(SOTA)に適応可能な新しい雑音ラベル学習グラフィカルモデルを提案する。
論文 参考訳(メタデータ) (2023-05-31T01:46:14Z) - Class Prototype-based Cleaner for Label Noise Learning [73.007001454085]
半教師付き学習法は、雑音ラベル学習問題に対する現在のSOTAソリューションである。
textbfClass textbfPrototype-based label textbfCleaner。
論文 参考訳(メタデータ) (2022-12-21T04:56:41Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Improving Medical Image Classification with Label Noise Using
Dual-uncertainty Estimation [72.0276067144762]
医用画像における2種類のラベルノイズについて論じ,定義する。
医用画像分類作業中にこれら2つのラベルノイズを処理する不確実性推定に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-28T14:56:45Z) - Towards Robustness to Label Noise in Text Classification via Noise
Modeling [7.863638253070439]
NLPの大規模なデータセットは、誤った自動および人間のアノテーション手順のために、ノイズの多いラベルに悩まされる。
本稿では,ラベルノイズを用いたテキスト分類の問題について検討し,分類器上での補助雑音モデルを用いてこのノイズを捉えることを目的とする。
論文 参考訳(メタデータ) (2021-01-27T05:41:57Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。