論文の概要: On the Composition and Limitations of Publicly Available COVID-19 X-Ray
Imaging Datasets
- arxiv url: http://arxiv.org/abs/2008.11572v1
- Date: Wed, 26 Aug 2020 14:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:29:05.365598
- Title: On the Composition and Limitations of Publicly Available COVID-19 X-Ray
Imaging Datasets
- Title(参考訳): 新型コロナウイルスx線画像データセットの構成と限界について
- Authors: Beatriz Garcia Santa Cruz, Jan S\"olter, Matias Nicolas Bossa and
Andreas Dominik Husch
- Abstract要約: データ不足、トレーニングとターゲット人口のミスマッチ、グループ不均衡、ドキュメントの欠如は、バイアスの重要な原因である。
本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning based methods for diagnosis and progression prediction of
COVID-19 from imaging data have gained significant attention in the last
months, in particular by the use of deep learning models. In this context
hundreds of models where proposed with the majority of them trained on public
datasets. Data scarcity, mismatch between training and target population, group
imbalance, and lack of documentation are important sources of bias, hindering
the applicability of these models to real-world clinical practice. Considering
that datasets are an essential part of model building and evaluation, a deeper
understanding of the current landscape is needed. This paper presents an
overview of the currently public available COVID-19 chest X-ray datasets. Each
dataset is briefly described and potential strength, limitations and
interactions between datasets are identified. In particular, some key
properties of current datasets that could be potential sources of bias,
impairing models trained on them are pointed out. These descriptions are useful
for model building on those datasets, to choose the best dataset according the
model goal, to take into account the specific limitations to avoid reporting
overconfident benchmark results, and to discuss their impact on the
generalisation capabilities in a specific clinical setting
- Abstract(参考訳): 画像データから新型コロナウイルスの診断と進行予測を行う機械学習ベースの手法は、ここ数ヶ月、特にディープラーニングモデルの使用によって大きな注目を集めている。
このコンテキストでは、数百のモデルが提案され、大多数が公開データセットでトレーニングされた。
データ不足、トレーニングとターゲットの集団間のミスマッチ、グループ不均衡、ドキュメントの欠如はバイアスの重要な源であり、これらのモデルが現実の臨床に応用されることを妨げる。
データセットがモデルの構築と評価の重要な部分であることを考えると、現在の状況についてより深く理解する必要がある。
本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
各データセットを簡潔に記述し、潜在的強度、制限、データセット間の相互作用を識別する。
特に、バイアスの原因となる可能性のある現在のデータセットのいくつかの重要な特性が指摘されている。
これらの記述は,これらのデータセットを用いたモデル構築,モデル目標に応じた最適なデータセットの選択,信頼度の高いベンチマーク結果の報告を避けるための特定の制限を考慮した上で,特定の臨床領域における一般化能力への影響を議論するために有用である。
関連論文リスト
- dacl1k: Real-World Bridge Damage Dataset Putting Open-Source Data to the
Test [0.6827423171182154]
dacl1kは1,474枚の画像を含む建築検査に基づく多ラベル分類のための多ラベルRCDデータセットである。
我々は、オープンソースデータ(メタデータセット)の異なる組み合わせに基づいてモデルを訓練し、その後、外在的にも内在的にも評価された。
dacl1kの性能分析は、メタデータの実用性を示し、最良のモデルでは、Exact Match比が32%である。
論文 参考訳(メタデータ) (2023-09-07T15:05:35Z) - Self-supervised Activity Representation Learning with Incremental Data:
An Empirical Study [7.782045150068569]
本研究では,時系列分類タスクにおける自己教師付き表現学習モデルの利用が及ぼす影響について検討する。
4つの公開データセットにおいて,ラベル付きデータのサイズ,分布,ソースが最終分類性能に与える影響を解析した。
論文 参考訳(メタデータ) (2023-05-01T01:39:55Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。
現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。
重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文 参考訳(メタデータ) (2022-08-01T18:38:05Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - A Real Use Case of Semi-Supervised Learning for Mammogram Classification
in a Local Clinic of Costa Rica [0.5541644538483946]
ディープラーニングモデルのトレーニングには、かなりの量のラベル付きイメージが必要です。
多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。
ラベルなしデータを利用した半教師付き深層学習手法であるMixMatchを提案し評価した。
論文 参考訳(メタデータ) (2021-07-24T22:26:50Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。