論文の概要: A Curated and Re-annotated Peripheral Blood Cell Dataset Integrating Four Public Resources
- arxiv url: http://arxiv.org/abs/2407.13214v2
- Date: Wed, 18 Jun 2025 05:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.348127
- Title: A Curated and Re-annotated Peripheral Blood Cell Dataset Integrating Four Public Resources
- Title(参考訳): 4つの公開資源を統合した末梢血細胞データ集合のキュレーションと再アノテート
- Authors: Lu Gan, Xi Li, Xichun Wang,
- Abstract要約: TXL-PBC(TXL-PBC)は、4つの公開リソースを統合することで構築された、キュレートされ再注釈された末梢血細胞データセットである。
最終データセットには1,260のイメージと、3つの主要な血液型に対する18,143のバウンディングボックスアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 8.215064903604986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TXL-PBC, a curated and re-annotated peripheral blood cell dataset constructed by integrating four publicly available resources: Blood Cell Count and Detection (BCCD), Blood Cell Detection Dataset (BCDD), Peripheral Blood Cells (PBC), and Raabin White Blood Cell (Raabin-WBC). Through rigorous sample selection, semi-automatic annotation using the YOLOv8n model, and comprehensive manual review, we ensured high annotation accuracy and consistency. The final dataset contains 1,260 images and 18,143 bounding box annotations for three major blood cell types: white blood cells (WBC), red blood cells (RBC), and platelets. We provide detailed visual analyses of the data distribution, demonstrating the diversity and balance of the dataset. To further validate the quality and utility of TXL-PBC, we trained several mainstream object detection models, including YOLOv5s, YOLOv8s, YOLOv11s, SSD300, Faster R-CNN, and RetinaNet, and report their baseline performance. The TXL-PBC dataset is openly available on Figshare and GitHub, offering a valuable resource for the development and benchmarking of blood cell detection models and related machine learning research.
- Abstract(参考訳): 血液細胞数と検出(BCCD)、血液細胞検出データセット(BCDD)、末梢血細胞(PBC)、ラビン白血細胞(Raabin-WBC)の4つの公開リソースを統合して構築した、培養および再診断された末梢血細胞データセットであるTXL-PBCについて述べる。
厳密なサンプル選択、YOLOv8nモデルを用いた半自動アノテーション、包括的な手作業によるレビューにより、高いアノテーション精度と整合性を確保した。
最終データセットには、白血球(WBC)、赤血球(RBC)、血小板の3つの主要な血液型に対する1,260の画像と18,143のバウンディングボックスアノテーションが含まれている。
データセットの多様性とバランスを実証し,データ分布の詳細な可視化分析を行う。
TXL-PBCの品質と有用性をさらに検証するため, YOLOv5s, YOLOv8s, YOLOv11s, SSD300, Faster R-CNN, RetinaNetなどの主流オブジェクト検出モデルをトレーニングし, そのベースライン性能を報告する。
TXL-PBCデータセットは、FigshareとGitHubで公開されており、血液細胞検出モデルと関連する機械学習研究の開発とベンチマークのための貴重なリソースを提供する。
関連論文リスト
- PDT: Uav Target Detection Dataset for Pests and Diseases Tree [4.469409505184921]
本研究は,樹木害虫や病害虫の検出を目的とした,UAVベースの高精度データセットの開発である。
公開データセットとネットワークデータを集約することで、Common Weed and Cropデータセットを導入します。
最後に, 雑草, 害虫, 病気の作物画像の高精度検出のためのYOLO-Dense Pest (YOLO-DP) モデルを提案する。
論文 参考訳(メタデータ) (2024-09-24T02:37:27Z) - Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation? [70.38903555729081]
我々はAutoPET3データ中心のトラックで競合するアプローチについて述べる。
AutoPETIIIデータセットでは、データセット全体をトレーニングしたモデルが望ましくない特性を示す。
我々は、スクラッチから再トレーニングする前に、モデル損失によって測定されたトレーニングデータセットから最も簡単なサンプルを取り除き、これを対処する。
論文 参考訳(メタデータ) (2024-09-20T14:47:58Z) - Segmentation Dataset for Reinforced Concrete Construction [4.32009010195029]
本稿では, 補強コンクリートの欠陥を自動検査するためのセグメンテーションラベル付き14,805枚のRGB画像のデータセットを提供する。
YOLOv8L-seg は、最大 0.59 のバリデーション mIOU スコアを達成する。
公開データの欠如は、偽陰性に対する重要な貢献であると認識されている。
論文 参考訳(メタデータ) (2024-07-12T15:53:15Z) - Verifix: Post-Training Correction to Improve Label Noise Robustness with
Verified Samples [9.91998873101083]
トレーニング後の補正は、初期訓練後のモデルパラメータを調整し、ラベルノイズを軽減する。
Verifixは、小さな検証済みのデータセットを利用して、1回の更新でモデルの重みを補正する新しいアルゴリズムである。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
論文 参考訳(メタデータ) (2024-03-13T15:32:08Z) - Semi-Supervised Semantic Segmentation using Redesigned Self-Training for
White Blood Cells [3.957784193707817]
利用可能なデータセットの不足を効果的に活用するための半教師付き学習フレームワークを提案する。
自己学習(Self-training)とは、ラベル付きデータに基づいてトレーニングされたモデルを使用して、ラベルなしデータの擬似ラベルを生成し、その両方で再トレーニングする手法である。
自己学習パイプラインにFixMatchを組み込むことで、ほとんどのケースでパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2024-01-14T12:22:34Z) - DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models [4.7846759259287985]
本稿では,DiffYOLO と呼ばれる YOLO モデルに適用可能なフレームワークを提案する。
具体的には,拡散確率モデルから特徴写像を抽出し,よく訓練されたモデルを強化する。
その結果、このフレームワークはノイズの多いデータセットのパフォーマンスを証明できるだけでなく、高品質なテストデータセットにおける検出結果も証明できることがわかった。
論文 参考訳(メタデータ) (2024-01-03T10:35:35Z) - Computer-aided Tuberculosis Diagnosis with Attribute Reasoning
Assistance [58.01014026139231]
新しい大規模結核(TB)胸部X線データセット(TBX-Att)を提案する。
属性情報を利用してTBの分類とローカライズを行うための属性支援弱教師付きフレームワークを構築した。
提案モデルはTBX-Attデータセットで評価され,今後の研究の確かなベースラインとして機能する。
論文 参考訳(メタデータ) (2022-07-01T07:50:35Z) - Dynamic Kernel Matching for Non-conforming Data: A Case Study of T-cell
Receptor Datasets [0.0]
既存の統計分類器を変形させないデータを扱う手法について述べる。
i) 疾患抗原をラベル付けしたT細胞受容体 (TCR) 配列のデータセット, (ii) 患者サイトメガロウイルス (CMV) セロスタスをラベル付けしたTCRレパートリーのデータセットについて検討した。
論文 参考訳(メタデータ) (2021-03-18T18:39:14Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。