論文の概要: On the Composition and Limitations of Publicly Available COVID-19 X-Ray
Imaging Datasets
- arxiv url: http://arxiv.org/abs/2008.11572v1
- Date: Wed, 26 Aug 2020 14:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:29:05.365598
- Title: On the Composition and Limitations of Publicly Available COVID-19 X-Ray
Imaging Datasets
- Title(参考訳): 新型コロナウイルスx線画像データセットの構成と限界について
- Authors: Beatriz Garcia Santa Cruz, Jan S\"olter, Matias Nicolas Bossa and
Andreas Dominik Husch
- Abstract要約: データ不足、トレーニングとターゲット人口のミスマッチ、グループ不均衡、ドキュメントの欠如は、バイアスの重要な原因である。
本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning based methods for diagnosis and progression prediction of
COVID-19 from imaging data have gained significant attention in the last
months, in particular by the use of deep learning models. In this context
hundreds of models where proposed with the majority of them trained on public
datasets. Data scarcity, mismatch between training and target population, group
imbalance, and lack of documentation are important sources of bias, hindering
the applicability of these models to real-world clinical practice. Considering
that datasets are an essential part of model building and evaluation, a deeper
understanding of the current landscape is needed. This paper presents an
overview of the currently public available COVID-19 chest X-ray datasets. Each
dataset is briefly described and potential strength, limitations and
interactions between datasets are identified. In particular, some key
properties of current datasets that could be potential sources of bias,
impairing models trained on them are pointed out. These descriptions are useful
for model building on those datasets, to choose the best dataset according the
model goal, to take into account the specific limitations to avoid reporting
overconfident benchmark results, and to discuss their impact on the
generalisation capabilities in a specific clinical setting
- Abstract(参考訳): 画像データから新型コロナウイルスの診断と進行予測を行う機械学習ベースの手法は、ここ数ヶ月、特にディープラーニングモデルの使用によって大きな注目を集めている。
このコンテキストでは、数百のモデルが提案され、大多数が公開データセットでトレーニングされた。
データ不足、トレーニングとターゲットの集団間のミスマッチ、グループ不均衡、ドキュメントの欠如はバイアスの重要な源であり、これらのモデルが現実の臨床に応用されることを妨げる。
データセットがモデルの構築と評価の重要な部分であることを考えると、現在の状況についてより深く理解する必要がある。
本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
各データセットを簡潔に記述し、潜在的強度、制限、データセット間の相互作用を識別する。
特に、バイアスの原因となる可能性のある現在のデータセットのいくつかの重要な特性が指摘されている。
これらの記述は,これらのデータセットを用いたモデル構築,モデル目標に応じた最適なデータセットの選択,信頼度の高いベンチマーク結果の報告を避けるための特定の制限を考慮した上で,特定の臨床領域における一般化能力への影響を議論するために有用である。
関連論文リスト
- Visual Data Diagnosis and Debiasing with Concept Graphs [50.84781894621378]
視覚データセットにおける概念共起バイアスの診断と緩和のためのフレームワークであるConBiasを提案する。
このような不均衡を緩和し,下流タスクの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:59:01Z) - Does Data-Efficient Generalization Exacerbate Bias in Foundation Models? [2.298227866545911]
ファンデーションモデルは、様々なドメインでラベル効率を持つ堅牢なモデルとして登場した。
事前学習中に機密属性の存在に偏った大量のラベル付きデータを使用することが、モデルの公平性に影響を与えるかどうかは不明である。
本研究は,ブラジルの多ラベル眼科学データセットを微調整する際のファンデーションモデルのバイアスについて検討する。
論文 参考訳(メタデータ) (2024-08-28T22:14:44Z) - A Language Model-Guided Framework for Mining Time Series with Distributional Shifts [5.082311792764403]
本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。
収集したデータは外部ソースから得られるが、一次時系列データセットと重要な統計特性を共有できる。
収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。
論文 参考訳(メタデータ) (2024-06-07T20:21:07Z) - dacl1k: Real-World Bridge Damage Dataset Putting Open-Source Data to the
Test [0.6827423171182154]
dacl1kは1,474枚の画像を含む建築検査に基づく多ラベル分類のための多ラベルRCDデータセットである。
我々は、オープンソースデータ(メタデータセット)の異なる組み合わせに基づいてモデルを訓練し、その後、外在的にも内在的にも評価された。
dacl1kの性能分析は、メタデータの実用性を示し、最良のモデルでは、Exact Match比が32%である。
論文 参考訳(メタデータ) (2023-09-07T15:05:35Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - A Real Use Case of Semi-Supervised Learning for Mammogram Classification
in a Local Clinic of Costa Rica [0.5541644538483946]
ディープラーニングモデルのトレーニングには、かなりの量のラベル付きイメージが必要です。
多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。
ラベルなしデータを利用した半教師付き深層学習手法であるMixMatchを提案し評価した。
論文 参考訳(メタデータ) (2021-07-24T22:26:50Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。