論文の概要: Did You Get What You Paid For? Rethinking Annotation Cost of Deep
Learning Based Computer Aided Detection in Chest Radiographs
- arxiv url: http://arxiv.org/abs/2209.15314v1
- Date: Fri, 30 Sep 2022 08:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:41:28.240202
- Title: Did You Get What You Paid For? Rethinking Annotation Cost of Deep
Learning Based Computer Aided Detection in Chest Radiographs
- Title(参考訳): 給料はもらったか?
胸部x線写真における深層学習に基づくコンピュータ支援検出のアノテーションコストの再検討
- Authors: Tae Soo Kim, Geonwoon Jang, Sanghyup Lee, Thijs Kooi
- Abstract要約: データアノテーションのコストが最終的にコンピュータ支援検出モデルの性能に与える影響について検討する。
コスト効率のよいアノテーションは、大量のアノテーションを収集すると大きな価値をもたらし、ゴールドスタンダードアノテーションのみで訓練されたモデルと比較して競争性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 8.079269139747131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep networks require large amounts of accurately labeled training data, a
strategy to collect sufficiently large and accurate annotations is as important
as innovations in recognition methods. This is especially true for building
Computer Aided Detection (CAD) systems for chest X-rays where domain expertise
of radiologists is required to annotate the presence and location of
abnormalities on X-ray images. However, there lacks concrete evidence that
provides guidance on how much resource to allocate for data annotation such
that the resulting CAD system reaches desired performance. Without this
knowledge, practitioners often fall back to the strategy of collecting as much
detail as possible on as much data as possible which is cost inefficient. In
this work, we investigate how the cost of data annotation ultimately impacts
the CAD model performance on classification and segmentation of chest
abnormalities in frontal-view X-ray images. We define the cost of annotation
with respect to the following three dimensions: quantity, quality and
granularity of labels. Throughout this study, we isolate the impact of each
dimension on the resulting CAD model performance on detecting 10 chest
abnormalities in X-rays. On a large scale training data with over 120K X-ray
images with gold-standard annotations, we find that cost-efficient annotations
provide great value when collected in large amounts and lead to competitive
performance when compared to models trained with only gold-standard
annotations. We also find that combining large amounts of cost efficient
annotations with only small amounts of expensive labels leads to competitive
CAD models at a much lower cost.
- Abstract(参考訳): 深層ネットワークは、大量の正確なラベル付きトレーニングデータを必要とするため、十分に大きく正確なアノテーションを集める戦略は、認識方法の革新と同じくらい重要である。
これは、放射線技師の専門知識がX線画像上の異常の存在と位置に注釈を付ける必要がある胸部X線に対するコンピュータ支援検出(CAD)システムの構築に特に当てはまる。
しかし、cadシステムが望ましい性能に達するように、データアノテーションを割り当てるリソースの量に関する具体的な証拠が欠けている。
このような知識がなければ、実践者は可能な限り多くのデータから可能な限り詳細な情報を収集するという、コスト非効率な戦略に陥ることが多い。
本研究では,前頭部X線画像における胸部異常の分類とセグメンテーションにおいて,データアノテーションのコストがCADモデルの性能に与える影響について検討する。
我々は,ラベルの量,品質,粒度という3つの次元に関して,アノテーションのコストを定義する。
そこで本研究では,各次元のCADモデル性能への影響を分離し,X線で10個の胸部異常を検出する。
金標準アノテーションを用いた120K以上のX線画像を用いた大規模トレーニングデータから,金標準アノテーションのみをトレーニングしたモデルと比較して,コスト効率の良いアノテーションが大量に収集された場合に大きな価値を提供することがわかった。
また、大量のコスト効率のよいアノテーションと少量の高価なラベルを組み合わせれば、競争的なCADモデルをはるかに低コストで作成できることがわかった。
関連論文リスト
- Augmenting Chest X-ray Datasets with Non-Expert Annotations [1.9991771189143435]
一般的で費用対効果の高いアプローチは、フリーテキスト医療レポートから自動アノテーション抽出である。
非専門的アノテーションを組み込むことで,2つの公開胸部X線データセットを強化する。
専門家ラベルによく一般化する非専門アノテーションで胸部ドレイン検出器を訓練する。
論文 参考訳(メタデータ) (2023-09-05T13:52:43Z) - How Does Pruning Impact Long-Tailed Multi-Label Medical Image
Classifiers? [49.35105290167996]
プルーニングは、ディープニューラルネットワークを圧縮し、全体的なパフォーマンスに大きな影響を及ぼすことなく、メモリ使用量と推論時間を短縮する強力なテクニックとして登場した。
この研究は、プルーニングがモデル行動に与える影響を理解するための第一歩である。
論文 参考訳(メタデータ) (2023-08-17T20:40:30Z) - RadTex: Learning Efficient Radiograph Representations from Text Reports [7.090896766922791]
我々は,放射線学報告を利用して,限られたラベル付きデータを用いた医用画像分類性能を向上させるための,データ効率のよい学習フレームワークを構築した。
本モデルは,ラベル付きトレーニングデータに制限がある場合,ImageNetによる事前学習よりも高い分類性能を実現する。
論文 参考訳(メタデータ) (2022-08-05T15:06:26Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Chest ImaGenome Dataset for Clinical Reasoning [5.906670720220545]
シーングラフデータ構造を持つChest ImaGenomeデータセットを初めて提供し、242,072$の画像を記述した。
ローカルアノテーションは、ジョイントルールベースの自然言語処理(NLP)とアトラスベースのバウンディングボックス検出パイプラインを使用して自動生成される。
論文 参考訳(メタデータ) (2021-07-31T20:10:30Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Learning Invariant Feature Representation to Improve Generalization
across Chest X-ray Datasets [55.06983249986729]
我々は、トレーニングデータと同じデータセットでテストすると、ディープラーニングモデルが、異なるソースからデータセットでテストされると、パフォーマンスが低下し始めることを示す。
対戦型トレーニング戦略を用いることで、ネットワークはソース不変表現を学習せざるを得ないことを示す。
論文 参考訳(メタデータ) (2020-08-04T07:41:15Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z) - Localization of Critical Findings in Chest X-Ray without Local
Annotations Using Multi-Instance Learning [0.0]
ディープラーニングモデルは説明責任の欠如に苦しむことが多い。
ディープラーニングモデルは、ピクセルレベルラベルやバウンディングボックス座標のような、局所的なアノテートされたトレーニングデータを必要とする。
本研究では,マルチインスタンス学習に基づく解釈可能なDLアルゴリズムを用いて,これらの欠点に対処する。
論文 参考訳(メタデータ) (2020-01-23T21:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。