Fugu-MT 論文翻訳(概要): Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets

論文の概要: Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets

arxiv url: http://arxiv.org/abs/2401.14497v1
Date: Thu, 25 Jan 2024 20:29:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 16:36:12.749938
Title: Investigating the Quality of DermaMNIST and Fitzpatrick17k Dermatological Image Datasets
Title（参考訳）: DermaMNISTとFitzpatrick17kの皮膚画像データセットの品質の検討
Authors: Kumar Abhishek, Aditi Jain, Ghassan Hamarneh
Abstract要約: DermaMNIST と Fitzpatrick17k という2つの一般的な皮膚画像データセットの精査分析を行った。データ品質の問題を明らかにし、これらの問題がベンチマーク結果に与える影響を測定し、データセットの修正を提案する。
参考スコア（独自算出の注目度）: 19.128392861461297
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The remarkable progress of deep learning in dermatological tasks has brought us closer to achieving diagnostic accuracies comparable to those of human experts. However, while large datasets play a crucial role in the development of reliable deep neural network models, the quality of data therein and their correct usage are of paramount importance. Several factors can impact data quality, such as the presence of duplicates, data leakage across train-test partitions, mislabeled images, and the absence of a well-defined test partition. In this paper, we conduct meticulous analyses of two popular dermatological image datasets: DermaMNIST and Fitzpatrick17k, uncovering these data quality issues, measure the effects of these problems on the benchmark results, and propose corrections to the datasets. Besides ensuring the reproducibility of our analysis, by making our analysis pipeline and the accompanying code publicly available, we aim to encourage similar explorations and to facilitate the identification and addressing of potential data quality issues in other large datasets.
Abstract（参考訳）: 皮膚科のタスクにおけるディープラーニングの著しい進歩は、人間の専門家に匹敵する診断能力の実現に近づいた。しかし、大規模データセットは信頼性の高いディープニューラルネットワークモデルの開発において重要な役割を果たすが、そのデータの品質と正しい利用は極めて重要である。重複の存在、列車テストパーティション間のデータ漏洩、誤ったラベル付き画像、明確に定義されたテストパーティションの欠如など、データ品質に影響を与える要因がいくつかある。本稿では,DermaMNISTとFitzpatrick17kという2つの一般的な皮膚画像データセットの精査分析を行い,これらのデータ品質問題を明らかにするとともに,これらの課題がベンチマーク結果に与える影響を測定し,データセットの修正を提案する。分析の再現性を確保するだけでなく、分析パイプラインと関連するコードを公開することで、同様の調査を促進し、他の大規模データセットにおける潜在的なデータ品質の問題の特定と解決を促進することを目標としています。

関連論文リスト

Limitations of Public Chest Radiography Datasets for Artificial Intelligence: Label Quality, Domain Shift, Bias and Evaluation Challenges [3.295369583957252]
大規模な公開データセットは、数十万のラベル付きイメージに病理アノテーションを提供する。放射線診断レポートから自動ラベル抽出がエラーを引き起こしますドメインシフトと人口バイアスはサブグループモデル一般可能性を制限する 2人の放射線学者による専門家によるレビューでは、公開データセットラベルと大きな意見の相違が判明した。
論文参考訳（メタデータ） (2025-09-18T16:13:11Z)
Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。 RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文参考訳（メタデータ） (2025-09-11T06:15:52Z)
Metrics that matter: Evaluating image quality metrics for medical image generation [48.85783422900129]
本研究は、脳MRIデータを用いて、一般的に使用される非参照画像品質指標を包括的に評価する。本研究は, ノイズ, 分布変化, および臨床的に関係のある不正確さを模倣した形態的変化を含む, 様々な課題に対する計量感度を評価する。
論文参考訳（メタデータ） (2025-05-12T01:57:25Z)
Human Body Restoration with One-Step Diffusion Model and A New Benchmark [74.66514054623669]
本稿では,高品質な自動収穫・フィルタリング(HQ-ACF)パイプラインを提案する。このパイプラインは、既存のオブジェクト検出データセットやその他のラベル付けされていないイメージを活用して、高品質な人間の画像を自動的にトリミングし、フィルタリングする。また,人体修復のための新しい1段階拡散モデルであるemphOSDHumanを提案する。
論文参考訳（メタデータ） (2025-02-03T14:48:40Z)
Towards Understanding the Impact of Data Bugs on Deep Learning Models in Software Engineering [13.17302533571231]
ディープラーニング(DL)システムは、トレーニングデータを含む多くのソースからのバグがちである。既存の文献では、トレーニングデータのバグが非常に多いことが示唆されている。本稿では,コードベース,テキストベース,メトリックベースの3種類のデータについて検討する。
論文参考訳（メタデータ） (2024-11-19T00:28:20Z)
A Guide to Misinformation Detection Datasets [5.673951146506489]
このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としている。すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
論文参考訳（メタデータ） (2024-11-07T18:47:39Z)
Is Dataset Quality Still a Concern in Diagnosis Using Large Foundation Model? [33.71784955496207]
VIT (Vision Transformer) と自己教師型学習フレームワークを用いた基礎画像用 LFM を開発した。 LFMにおけるデータ品質の影響を調べるため,異なる品質のデータセットを用いて2つの基礎診断タスクの探索を行った。 LFMは画像品質やデータセットバイアスなど,一般的な畳み込みネットワークに比べて,データセットの品質問題に対するレジリエンスが高いことがわかった。
論文参考訳（メタデータ） (2024-05-21T08:27:35Z)
Copycats: the many lives of a publicly available medical imaging dataset [12.98380178359767]
医療画像(MI)データセットは、医療における人工知能の基本である。 MIデータセットは以前はプロプライエタリだったが、KaggleやHuggingFaceといったコミュニティに分散したプラットフォーム(CCP)など、徐々に一般向けに利用されるようになった。オープンデータは、データの公開価値の再分配を促進するために重要であるが、現在のCCPガバナンスモデルは、データセットの共有、文書化、評価に必要な品質と推奨のプラクティスを維持できない。
論文参考訳（メタデータ） (2024-02-09T12:01:22Z)
Few-shot learning for COVID-19 Chest X-Ray Classification with Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文参考訳（メタデータ） (2024-01-18T16:59:27Z)
Exploring Dataset-Scale Indicators of Data Quality [23.017200605976807]
現代のコンピュータビジョン基礎モデルは膨大な量のデータに基づいて訓練されており、経済と環境のコストが増大している。近年の研究では、データ品質の向上はデータ量の必要性を大幅に減らすことが示唆されている。与えられたデータセットの品質は、異なるサンプルレベルとデータセットレベルに分解できると仮定する。
論文参考訳（メタデータ） (2023-11-07T14:14:32Z)
Genetic InfoMax: Exploring Mutual Information Maximization in High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文参考訳（メタデータ） (2023-09-26T03:59:21Z)
Analyzing the Effects of Handling Data Imbalance on Learned Features from Medical Images by Looking Into the Models [50.537859423741644]
不均衡なデータセットでモデルをトレーニングすることは、学習問題にユニークな課題をもたらす可能性がある。ニューラルネットワークの内部ユニットを深く調べて、データの不均衡処理が学習した機能にどのように影響するかを観察します。
論文参考訳（メタデータ） (2022-04-04T09:38:38Z)
Statistical Learning to Operationalize a Domain Agnostic Data Quality Scoring [8.864453148536061]
この研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを収集する自動化プラットフォームを提供する。この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。
論文参考訳（メタデータ） (2021-08-16T12:20:57Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)
Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文参考訳（メタデータ） (2020-10-14T16:50:50Z)
Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文参考訳（メタデータ） (2020-06-06T06:48:40Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)
GraspNet: A Large-Scale Clustered and Densely Annotated Dataset for Object Grasping [49.777649953381676]
我々は,統合評価システムを用いた大規模グリップポーズ検出データセットに貢献する。データセットには87,040枚のRGBD画像と3億7000万枚以上のグリップポーズが含まれている。
論文参考訳（メタデータ） (2019-12-31T18:15:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。