Fugu-MT 論文翻訳(概要): On the Composition and Limitations of Publicly Available COVID-19 X-Ray Imaging Datasets

論文の概要: On the Composition and Limitations of Publicly Available COVID-19 X-Ray Imaging Datasets

arxiv url: http://arxiv.org/abs/2008.11572v1
Date: Wed, 26 Aug 2020 14:16:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 21:29:05.365598
Title: On the Composition and Limitations of Publicly Available COVID-19 X-Ray Imaging Datasets
Title（参考訳）: 新型コロナウイルスx線画像データセットの構成と限界について
Authors: Beatriz Garcia Santa Cruz, Jan S\"olter, Matias Nicolas Bossa and Andreas Dominik Husch
Abstract要約: データ不足、トレーニングとターゲット人口のミスマッチ、グループ不均衡、ドキュメントの欠如は、バイアスの重要な原因である。本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning based methods for diagnosis and progression prediction of COVID-19 from imaging data have gained significant attention in the last months, in particular by the use of deep learning models. In this context hundreds of models where proposed with the majority of them trained on public datasets. Data scarcity, mismatch between training and target population, group imbalance, and lack of documentation are important sources of bias, hindering the applicability of these models to real-world clinical practice. Considering that datasets are an essential part of model building and evaluation, a deeper understanding of the current landscape is needed. This paper presents an overview of the currently public available COVID-19 chest X-ray datasets. Each dataset is briefly described and potential strength, limitations and interactions between datasets are identified. In particular, some key properties of current datasets that could be potential sources of bias, impairing models trained on them are pointed out. These descriptions are useful for model building on those datasets, to choose the best dataset according the model goal, to take into account the specific limitations to avoid reporting overconfident benchmark results, and to discuss their impact on the generalisation capabilities in a specific clinical setting
Abstract（参考訳）: 画像データから新型コロナウイルスの診断と進行予測を行う機械学習ベースの手法は、ここ数ヶ月、特にディープラーニングモデルの使用によって大きな注目を集めている。このコンテキストでは、数百のモデルが提案され、大多数が公開データセットでトレーニングされた。データ不足、トレーニングとターゲットの集団間のミスマッチ、グループ不均衡、ドキュメントの欠如はバイアスの重要な源であり、これらのモデルが現実の臨床に応用されることを妨げる。データセットがモデルの構築と評価の重要な部分であることを考えると、現在の状況についてより深く理解する必要がある。本稿では,現在公開されている新型コロナウイルス胸部X線データセットの概要を紹介する。各データセットを簡潔に記述し、潜在的強度、制限、データセット間の相互作用を識別する。特に、バイアスの原因となる可能性のある現在のデータセットのいくつかの重要な特性が指摘されている。これらの記述は,これらのデータセットを用いたモデル構築,モデル目標に応じた最適なデータセットの選択,信頼度の高いベンチマーク結果の報告を避けるための特定の制限を考慮した上で,特定の臨床領域における一般化能力への影響を議論するために有用である。

関連論文リスト

Core-Set Selection for Data-efficient Land Cover Segmentation [16.89537279044251]
リモートセンシング画像セグメンテーションデータセットからサンプルの重要なサブセットを選択するための6つの新しいコアセット選択手法を提案する。本手法は,3つの土地被覆分類データセットのランダム選択ベースラインに対して,これらのアプローチをベンチマークする。この結果は,リモートセンシング領域におけるデータ中心学習の重要性と可能性を示している。
論文参考訳（メタデータ） (2025-05-02T12:22:08Z)
Evaluating Facial Expression Recognition Datasets for Deep Learning: A Benchmark Study with Novel Similarity Metrics [4.137346786534721]
本研究では,ディープラーニングモデルの学習に広く用いられている顔表情認識(FER)データセットの特徴と適合性について検討した。子ども, 成人, 高齢者など特定の年齢層を対象として, 24 FER データセットを収集, 分析した。最先端のニューラルネットワークを用いたベンチマーク実験では、大規模で自動収集されたデータセットがより一般化される傾向があることが明らかになった。
論文参考訳（メタデータ） (2025-03-26T11:01:00Z)
Ranking pre-trained segmentation models for zero-shot transferability [3.0496043297705424]
十分なトレーニングデータをラベル付けする膨大なコストは、ディープラーニングの使用において大きなボトルネックになります。セグメンテーションタスクとインスタンスセグメンテーションタスクのための最初の教師なし転送可能性推定器を提案する。本手法は,顕微鏡モダリティにまたがる複数のセグメンテーション問題に対して評価を行う。
論文参考訳（メタデータ） (2025-03-01T11:11:06Z)
Visual Data Diagnosis and Debiasing with Concept Graphs [50.84781894621378]
視覚データセットにおける概念共起バイアスの診断と緩和のためのフレームワークであるConBiasを提案する。このような不均衡を緩和し,下流タスクの性能向上につながることを示す。
論文参考訳（メタデータ） (2024-09-26T16:59:01Z)
Does Data-Efficient Generalization Exacerbate Bias in Foundation Models? [2.298227866545911]
ファンデーションモデルは、様々なドメインでラベル効率を持つ堅牢なモデルとして登場した。事前学習中に機密属性の存在に偏った大量のラベル付きデータを使用することが、モデルの公平性に影響を与えるかどうかは不明である。本研究は,ブラジルの多ラベル眼科学データセットを微調整する際のファンデーションモデルのバイアスについて検討する。
論文参考訳（メタデータ） (2024-08-28T22:14:44Z)
A Language Model-Guided Framework for Mining Time Series with Distributional Shifts [5.082311792764403]
本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。収集したデータは外部ソースから得られるが、一次時系列データセットと重要な統計特性を共有できる。収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。
論文参考訳（メタデータ） (2024-06-07T20:21:07Z)
dacl1k: Real-World Bridge Damage Dataset Putting Open-Source Data to the Test [0.6827423171182154]
dacl1kは1,474枚の画像を含む建築検査に基づく多ラベル分類のための多ラベルRCDデータセットである。我々は、オープンソースデータ(メタデータセット)の異なる組み合わせに基づいてモデルを訓練し、その後、外在的にも内在的にも評価された。 dacl1kの性能分析は、メタデータの実用性を示し、最良のモデルでは、Exact Match比が32%である。
論文参考訳（メタデータ） (2023-09-07T15:05:35Z)
Synthetic Model Combination: An Instance-wise Approach to Unsupervised Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文参考訳（メタデータ） (2022-10-11T10:20:31Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Selecting the suitable resampling strategy for imbalanced data classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文参考訳（メタデータ） (2021-12-15T18:56:39Z)
A Real Use Case of Semi-Supervised Learning for Mammogram Classification in a Local Clinic of Costa Rica [0.5541644538483946]
ディープラーニングモデルのトレーニングには、かなりの量のラベル付きイメージが必要です。多くの公開データセットが、さまざまな病院や診療所のデータで構築されている。ラベルなしデータを利用した半教師付き深層学習手法であるMixMatchを提案し評価した。
論文参考訳（メタデータ） (2021-07-24T22:26:50Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
Dataset Cartography: Mapping and Diagnosing Datasets with Training Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文参考訳（メタデータ） (2020-09-22T20:19:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。