論文の概要: On the diminishing return of labeling clinical reports
- arxiv url: http://arxiv.org/abs/2010.14587v1
- Date: Tue, 27 Oct 2020 19:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:06:59.918379
- Title: On the diminishing return of labeling clinical reports
- Title(参考訳): 臨床報告のリターンの低下について
- Authors: Jean-Baptiste Lamare, Tobi Olatunji, Li Yao
- Abstract要約: 医療用NLPモデルを少量のラベル付きデータで取得できることを示す。
胸部X線X線画像診断データのうち, 胸部X線画像診断におけるトレーニングデータサイズの影響を定量的に検討した。
- 参考スコア(独自算出の注目度): 2.1431637042179683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ample evidence suggests that better machine learning models may be steadily
obtained by training on increasingly larger datasets on natural language
processing (NLP) problems from non-medical domains. Whether the same holds true
for medical NLP has by far not been thoroughly investigated. This work shows
that this is indeed not always the case. We reveal the somehow
counter-intuitive observation that performant medical NLP models may be
obtained with small amount of labeled data, quite the opposite to the common
belief, most likely due to the domain specificity of the problem. We show
quantitatively the effect of training data size on a fixed test set composed of
two of the largest public chest x-ray radiology report datasets on the task of
abnormality classification. The trained models not only make use of the
training data efficiently, but also outperform the current state-of-the-art
rule-based systems by a significant margin.
- Abstract(参考訳): より優れた機械学習モデルは、非医療領域からの自然言語処理(NLP)問題に関するより大規模なデータセットのトレーニングによって、着実に得られる可能性がある、という証拠は少ない。
医学的NLPにも同じことが当てはまるかどうかは、これまで徹底的に調査されていない。
この研究は、必ずしもそうではないことを示している。
我々は, 医療nlpモデルの性能が, ごく少量のラベル付きデータで得られる可能性について, 共通の信念とは正反対に, 問題領域の特異性から, 何らかの反直観的な見解を明らかにした。
胸部x線x線診断データのうち最大2つからなる固定テストセットにおけるトレーニングデータサイズの影響を,異常分類の課題に対して定量的に示す。
トレーニングされたモデルは、トレーニングデータを効率的に利用するだけでなく、現在の最先端のルールベースシステムを大幅に上回っています。
関連論文リスト
- How Does Pruning Impact Long-Tailed Multi-Label Medical Image
Classifiers? [49.35105290167996]
プルーニングは、ディープニューラルネットワークを圧縮し、全体的なパフォーマンスに大きな影響を及ぼすことなく、メモリ使用量と推論時間を短縮する強力なテクニックとして登場した。
この研究は、プルーニングがモデル行動に与える影響を理解するための第一歩である。
論文 参考訳(メタデータ) (2023-08-17T20:40:30Z) - DIAGNOSE: Avoiding Out-of-distribution Data using Submodular Information
Measures [13.492292022589918]
類似性と相似性を共同でモデル化できる,新しいアクティブラーニングフレームワークであるDiagnoseを提案する。
本実験は, 医用画像の複数の領域にまたがる最先端AL法に対する診断の優位性を検証するものである。
論文 参考訳(メタデータ) (2022-10-04T11:07:48Z) - Potential sources of dataset bias complicate investigation of
underdiagnosis by machine learning algorithms [20.50071537200745]
Seyed-Kalantariらは、3つの胸部X線データセットで訓練されたモデルが偽陽性率の差をもたらすことを発見した。
この研究は、これらのモデルが体系的な下垂体手術を展示し、潜在的に増幅していると結論付けている。
論文 参考訳(メタデータ) (2022-01-19T20:51:38Z) - Neural Medication Extraction: A Comparison of Recent Models in
Supervised and Semi-supervised Learning Settings [0.751289645756884]
薬物処方は、電子カルテにエンコードされなければならない重要な情報である。
これが薬品抽出作業の現況である。
我々は、I2B2医療処方薬抽出タスクにおいて、最先端のニューラルネットワークアーキテクチャを独立して総合的に評価する。
論文 参考訳(メタデータ) (2021-10-19T19:23:38Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Relational Subsets Knowledge Distillation for Long-tailed Retinal
Diseases Recognition [65.77962788209103]
本研究では,長尾データを知識に基づいて複数のクラスサブセットに分割し,クラスサブセット学習を提案する。
モデルがサブセット固有の知識の学習に集中するように強制する。
提案手法は長期網膜疾患認識タスクに有効であることが判明した。
論文 参考訳(メタデータ) (2021-04-22T13:39:33Z) - A Hamiltonian Monte Carlo Model for Imputation and Augmentation of
Healthcare Data [0.6719751155411076]
変数や質問のデータが収集されないか利用できないため、ほとんどすべての臨床研究に不足する値が存在します。
既存のモデルは通常、プライバシの懸念を考慮せず、複数の機能にまたがる固有の相関を利用していない。
本研究では, 欠落値のインプットと高次元医療データへの付加的サンプル生成に対するベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-03T11:57:42Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。