論文の概要: TXL-PBC: a freely accessible labeled peripheral blood cell dataset
- arxiv url: http://arxiv.org/abs/2407.13214v1
- Date: Thu, 18 Jul 2024 06:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:32:17.795079
- Title: TXL-PBC: a freely accessible labeled peripheral blood cell dataset
- Title(参考訳): TXL-PBC : 自由にアクセスできるラベル付き末梢血細胞データセット
- Authors: Lu Gan, Xi Li,
- Abstract要約: 我々は、TXL-PBCと名付けた高品質でサンプルバランスのよい新しいデータセットを作成しました。
データセットには、1008個の血液トレーニングセット、288個の血液トレーニングセット、144個のテストセットが含まれている。
この研究は、血液細胞データセットの品質を高めるだけでなく、細胞標的細胞の検出モデルの改善にも研究者を支援している。
- 参考スコア(独自算出の注目度): 9.232909679987326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a recent study, we found that publicly BCCD and BCD datasets have significant issues such as labeling errors, insufficient sample size, and poor data quality. To address these problems, we performed sample deletion, re-labeling, and integration of these two datasets. Additionally, we introduced the PBC and Raabin-WBC datasets, and ultimately created a high-quality, sample-balanced new dataset, which we named TXL-PBC. The dataset contains 1008 training sets, 288 validation sets, and 144 test sets. Firstly, The dataset underwent strict manual annotation, automatic annotation with YOLOv8n model, and manual audit steps to ensure the accuracy and consistency of annotations. Secondly, we addresses the blood cell mislabeling problem of the original datasets. The distribution of label boundary box areas and the number of labels are better than the BCCD and BCD datasets. Moreover, we used the YOLOv8n model to train these three datasets, the performance of the TXL-PBC dataset surpass the original two datasets. Finally, we employed YOLOv5n, YOLOv5s, YOLOv5l, YOLOv8s, YOLOv8m detection models as the baseline models for TXL-PBC. This study not only enhances the quality of the blood cell dataset but also supports researchers in improving models for blood cell target detection. We published our freely accessible TXL-PBC dataset at https://github.com/lugan113/TXL-PBC\_Dataset.
- Abstract(参考訳): 最近の研究では、BCDとBCDのデータセットには、エラーのラベル付け、サンプルサイズ不足、データ品質の低下など、重大な問題があることが判明した。
これらの問題に対処するため、サンプル削除、再ラベル化、これらの2つのデータセットの統合を行いました。
さらに、PBCとRaabin-WBCデータセットを導入し、最終的に高品質でサンプルバランスのよい新しいデータセットを作成しました。
データセットには1008のトレーニングセット、288の検証セット、144のテストセットが含まれている。
まず、データセットには厳密な手動アノテーション、YOLOv8nモデルによる自動アノテーション、アノテーションの正確性と一貫性を保証するための手動監査ステップが実施された。
第2に,元のデータセットの血液細胞ミスラベル問題に対処する。
ラベル境界ボックス領域の分布とラベルの数は、BCCDおよびBCDデータセットよりも優れている。
さらに、YOLOv8nモデルを用いてこれらの3つのデータセットをトレーニングし、TXL-PBCデータセットのパフォーマンスが元の2つのデータセットを上回った。
最後に,TXL-PBCのベースラインモデルとして,YOLOv5n,YOLOv5s,YOLOv5l,YOLOv8s,YOLOv8mの検出モデルを採用した。
この研究は、血液細胞データセットの品質を高めるだけでなく、血液細胞標的検出モデルの改善にも研究者を支援している。
アクセス可能なTXL-PBCデータセットをhttps://github.com/lugan113/TXL-PBC\_Datasetで公開しました。
関連論文リスト
- PDT: Uav Target Detection Dataset for Pests and Diseases Tree [4.469409505184921]
本研究は,樹木害虫や病害虫の検出を目的とした,UAVベースの高精度データセットの開発である。
公開データセットとネットワークデータを集約することで、Common Weed and Cropデータセットを導入します。
最後に, 雑草, 害虫, 病気の作物画像の高精度検出のためのYOLO-Dense Pest (YOLO-DP) モデルを提案する。
論文 参考訳(メタデータ) (2024-09-24T02:37:27Z) - Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation? [70.38903555729081]
我々はAutoPET3データ中心のトラックで競合するアプローチについて述べる。
AutoPETIIIデータセットでは、データセット全体をトレーニングしたモデルが望ましくない特性を示す。
我々は、スクラッチから再トレーニングする前に、モデル損失によって測定されたトレーニングデータセットから最も簡単なサンプルを取り除き、これを対処する。
論文 参考訳(メタデータ) (2024-09-20T14:47:58Z) - Verifix: Post-Training Correction to Improve Label Noise Robustness with
Verified Samples [9.91998873101083]
トレーニング後の補正は、初期訓練後のモデルパラメータを調整し、ラベルノイズを軽減する。
Verifixは、小さな検証済みのデータセットを利用して、1回の更新でモデルの重みを補正する新しいアルゴリズムである。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
論文 参考訳(メタデータ) (2024-03-13T15:32:08Z) - Semi-Supervised Semantic Segmentation using Redesigned Self-Training for
White Blood Cells [3.957784193707817]
利用可能なデータセットの不足を効果的に活用するための半教師付き学習フレームワークを提案する。
自己学習(Self-training)とは、ラベル付きデータに基づいてトレーニングされたモデルを使用して、ラベルなしデータの擬似ラベルを生成し、その両方で再トレーニングする手法である。
自己学習パイプラインにFixMatchを組み込むことで、ほとんどのケースでパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2024-01-14T12:22:34Z) - DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models [4.7846759259287985]
本稿では,DiffYOLO と呼ばれる YOLO モデルに適用可能なフレームワークを提案する。
具体的には,拡散確率モデルから特徴写像を抽出し,よく訓練されたモデルを強化する。
その結果、このフレームワークはノイズの多いデータセットのパフォーマンスを証明できるだけでなく、高品質なテストデータセットにおける検出結果も証明できることがわかった。
論文 参考訳(メタデータ) (2024-01-03T10:35:35Z) - Computer-aided Tuberculosis Diagnosis with Attribute Reasoning
Assistance [58.01014026139231]
新しい大規模結核(TB)胸部X線データセット(TBX-Att)を提案する。
属性情報を利用してTBの分類とローカライズを行うための属性支援弱教師付きフレームワークを構築した。
提案モデルはTBX-Attデータセットで評価され,今後の研究の確かなベースラインとして機能する。
論文 参考訳(メタデータ) (2022-07-01T07:50:35Z) - Dynamic Kernel Matching for Non-conforming Data: A Case Study of T-cell
Receptor Datasets [0.0]
既存の統計分類器を変形させないデータを扱う手法について述べる。
i) 疾患抗原をラベル付けしたT細胞受容体 (TCR) 配列のデータセット, (ii) 患者サイトメガロウイルス (CMV) セロスタスをラベル付けしたTCRレパートリーのデータセットについて検討した。
論文 参考訳(メタデータ) (2021-03-18T18:39:14Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。