論文の概要: Outlier Detection in Large Radiological Datasets using UMAP
- arxiv url: http://arxiv.org/abs/2407.21263v1
- Date: Wed, 31 Jul 2024 00:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:04:58.126483
- Title: Outlier Detection in Large Radiological Datasets using UMAP
- Title(参考訳): UMAPを用いた大規模ラジオロジカルデータセットの異常検出
- Authors: Mohammad Tariqul Islam, Jason W. Fleischer,
- Abstract要約: バイオメディカルデータでは、画像の品質、ラベル付け、レポート、アーカイブのバリエーションは、エラー、矛盾、繰り返しサンプルにつながる可能性がある。
ここでは、一様多様体近似および射影アルゴリズムが、本質的には独立クラスタを形成することによってこれらの異常を見つけることができることを示す。
結果はアーカイブとふりかえりですが、グラフベースのメソッドはどんなデータ型でも機能します。
- 参考スコア(独自算出の注目度): 1.206248959194646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of machine learning algorithms heavily relies on the quality of samples and the accuracy of their corresponding labels. However, building and maintaining large, high-quality datasets is an enormous task. This is especially true for biomedical data and for meta-sets that are compiled from smaller ones, as variations in image quality, labeling, reports, and archiving can lead to errors, inconsistencies, and repeated samples. Here, we show that the uniform manifold approximation and projection (UMAP) algorithm can find these anomalies essentially by forming independent clusters that are distinct from the main (good) data but similar to other points with the same error type. As a representative example, we apply UMAP to discover outliers in the publicly available ChestX-ray14, CheXpert, and MURA datasets. While the results are archival and retrospective and focus on radiological images, the graph-based methods work for any data type and will prove equally beneficial for curation at the time of dataset creation.
- Abstract(参考訳): 機械学習アルゴリズムの成功は、サンプルの品質と対応するラベルの精度に大きく依存している。
しかし、大規模で高品質なデータセットの構築とメンテナンスは膨大な作業である。
これは特にバイオメディカルデータや、画像品質、ラベル付け、レポート、アーカイビングのバリエーションがエラー、矛盾、繰り返しサンプルなど、より小さなものからコンパイルされたメタセットに当てはまる。
ここでは、一様多様体近似および投影法(UMAP)アルゴリズムが、本質的には主(良い)データとは異なるが、同じエラー型を持つ他の点と類似した独立クラスタを形成することにより、これらの異常を見つけることができることを示す。
代表的な例として、UMAPを適用して、公開されているChestX-ray14、CheXpert、muraデータセットの外れ値を検出する。
結果はアーカイブと振り返りであり、放射線画像に焦点を当てるが、グラフベースの手法はどんなデータ型でも機能し、データセット作成時のキュレーションにも等しく有用である。
関連論文リスト
- ARC: A Generalist Graph Anomaly Detector with In-Context Learning [62.202323209244]
ARCは汎用的なGADアプローチであり、一対一のGADモデルで様々なグラフデータセットの異常を検出することができる。
ARCはコンテキスト内学習を備えており、ターゲットデータセットからデータセット固有のパターンを直接抽出することができる。
各種領域からの複数のベンチマークデータセットに対する大規模な実験は、ARCの優れた異常検出性能、効率、一般化性を示す。
論文 参考訳(メタデータ) (2024-05-27T02:42:33Z) - How Can We Tame the Long-Tail of Chest X-ray Datasets? [0.0]
胸部X線(英: Chest X-rays、CXR)は、多数の異常を推測するために用いられる医療画像のモダリティである。
非常に一般的に観測されており、CXRデータセットで十分に表現されているものはほとんどない。
現在のモデルでは、稀ではあるが高い意味を持つラベルの独立した差別的特徴を学習することは困難である。
論文 参考訳(メタデータ) (2023-09-08T12:28:40Z) - DatasetEquity: Are All Samples Created Equal? In The Quest For Equity
Within Datasets [4.833815605196965]
本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。
深い知覚埋め込みとクラスタリングを用いて、画像の外観に基づいてサンプル確率を計算する。
次に、これらの可能性を使って、提案された$bf Generalized Focal Loss$関数で、トレーニング中にサンプルを異なる重さで測定する。
論文 参考訳(メタデータ) (2023-08-19T02:11:49Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Dealing with Distribution Mismatch in Semi-supervised Deep Learning for
Covid-19 Detection Using Chest X-ray Images: A Novel Approach Using Feature
Densities [0.6882042556551609]
半教師付きディープラーニングは、大きなラベル付きデータセットの魅力的な代替手段である。
実世界の使用状況設定では、ラベル付きデータセットとは異なる分布を示す可能性がある。
これにより、ラベル付きデータセットとラベル付きデータセットの分散ミスマッチが発生します。
論文 参考訳(メタデータ) (2021-08-17T00:35:43Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。