論文の概要: Inflation of test accuracy due to data leakage in deep learning-based
classification of OCT images
- arxiv url: http://arxiv.org/abs/2202.12267v1
- Date: Mon, 21 Feb 2022 14:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 10:39:22.171052
- Title: Inflation of test accuracy due to data leakage in deep learning-based
classification of OCT images
- Title(参考訳): 深層学習によるOCT画像の分類におけるデータ漏洩による検査精度のインフレーション
- Authors: Iulian Emil Tampu, Anders Eklund and Neda Haj-Hosseini
- Abstract要約: 本研究では,2つの分類課題に対して,不適切なデータセット分割がモデル評価に及ぼす影響を実証した。
その結果,不適切な分割を伴うデータセット上で実験したモデルに対して,分類精度は3.9~26パーセント向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the application of deep learning on optical coherence tomography (OCT)
data, it is common to train classification networks using 2D images originating
from volumetric data. Given the micrometer resolution of OCT systems,
consecutive images are often very similar in both visible structures and noise.
Thus, an inappropriate data split can result in overlap between the training
and testing sets, with a large portion of the literature overlooking this
aspect. In this study, the effect of improper dataset splitting on model
evaluation is demonstrated for two classification tasks using two OCT
open-access datasets extensively used in the literature, Kermany's
ophthalmology dataset and AIIMS breast tissue dataset. Our results show that
the classification accuracy is inflated by 3.9 to 26 percentage units for
models tested on a dataset with improper splitting, highlighting the
considerable effect of dataset handling on model evaluation. This study intends
to raise awareness on the importance of dataset splitting for research on deep
learning using OCT data and volumetric data in general.
- Abstract(参考訳): 光コヒーレンストモグラフィー(OCT)データへの深層学習の適用においては,体積データに基づく2次元画像を用いた分類ネットワークの訓練が一般的である。
OCTシステムのマイクロメートル分解能を考えると、連続した画像はしばしば可視構造とノイズの両方において非常によく似ている。
したがって、不適切なデータ分割は、トレーニングとテストセットの間に重複する可能性がある。
本研究では,文献で広く用いられている2つのoctオープンアクセスデータセット,kermany's ophthalmology datasetとaiims breast tissue datasetを用いて,不適切なデータセット分割がモデル評価に及ぼす影響を実証した。
その結果,不適切に分割されたデータセット上でテストされたモデルの分類精度は3.9~26パーセンテージ向上し,データハンドリングがモデル評価に与える影響を浮き彫りにした。
本研究は,OCTデータとボリュームデータを用いたディープラーニング研究において,データセット分割の重要性に対する意識を高めることを目的とする。
関連論文リスト
- Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Defect Classification in Additive Manufacturing Using CNN-Based Vision
Processing [76.72662577101988]
本稿では、まず、畳み込みニューラルネットワーク(CNN)を用いて、画像データセットの欠陥をAMから第2に正確に分類し、発達した分類モデルにアクティブラーニング技術を適用する。
これにより、トレーニングデータやトレーニングデータの生成に必要なデータのサイズを削減できる、ヒューマン・イン・ザ・ループ機構の構築が可能になる。
論文 参考訳(メタデータ) (2023-07-14T14:36:58Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Self-supervised Model Based on Masked Autoencoders Advance CT Scans
Classification [0.0]
本稿では,自己教師付き学習アルゴリズムMAEに着想を得た。
ImageNetで事前トレーニングされたMAEモデルを使用して、CT Scansデータセット上で転送学習を実行する。
この方法はモデルの一般化性能を改善し、小さなデータセットに過度に適合するリスクを回避する。
論文 参考訳(メタデータ) (2022-10-11T00:52:05Z) - SD-LayerNet: Semi-supervised retinal layer segmentation in OCT using
disentangled representation with anatomical priors [4.2663199451998475]
網膜層セグメンテーションタスクに半教師付きパラダイムを導入する。
特に、表面位置回帰をピクセル単位で構造化されたセグメンテーションに変換するために、新しい完全微分可能なアプローチが用いられる。
並行して,ラベル付きデータの限られた量が利用できる場合に,ネットワークトレーニングを改善するための解剖学的事前セットを提案する。
論文 参考訳(メタデータ) (2022-07-01T14:30:59Z) - Reducing Labelled Data Requirement for Pneumonia Segmentation using
Image Augmentations [0.0]
画像拡張が肺炎検出のための胸部x線意味セグメンテーションにおけるラベル付きデータの必要性を減らす効果について検討した。
我々は、トレーニングデータから異なるサイズのサブセットで完全な畳み込みネットワークモデルを訓練する。
回転と混合は、回転、混合、翻訳、ガンマ、水平フリップの中で最高の増強であり、ラベル付きデータの要件を70%削減します。
論文 参考訳(メタデータ) (2021-02-25T10:11:30Z) - The Deep Radial Basis Function Data Descriptor (D-RBFDD) Network: A
One-Class Neural Network for Anomaly Detection [7.906608953906889]
異常検出は機械学習において難しい問題である。
放射状基底関数データ記述子(rbfdd)ネットワークは異常検出に有効なソリューションである。
本稿では,RBFDDネットワークを改良して深層一級分類器に変換する手法について検討する。
論文 参考訳(メタデータ) (2021-01-29T15:15:17Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z) - Data Consistent CT Reconstruction from Insufficient Data with Learned
Prior Images [70.13735569016752]
偽陰性病変と偽陽性病変を呈示し,CT画像再構成における深層学習の堅牢性について検討した。
本稿では,圧縮センシングと深層学習の利点を組み合わせた画像品質向上のためのデータ一貫性再構築手法を提案する。
提案手法の有効性は,円錐ビームCTにおいて,トランキャットデータ,リミテッドアングルデータ,スパースビューデータで示される。
論文 参考訳(メタデータ) (2020-05-20T13:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。