論文の概要: TXL-PBC: a freely accessible labeled peripheral blood cell dataset
- arxiv url: http://arxiv.org/abs/2407.13214v1
- Date: Thu, 18 Jul 2024 06:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-19 16:32:17.795079
- Title: TXL-PBC: a freely accessible labeled peripheral blood cell dataset
- Title(参考訳): TXL-PBC : 自由にアクセスできるラベル付き末梢血細胞データセット
- Authors: Lu Gan, Xi Li,
- Abstract要約: 我々は、TXL-PBCと名付けた高品質でサンプルバランスのよい新しいデータセットを作成しました。
データセットには、1008個の血液トレーニングセット、288個の血液トレーニングセット、144個のテストセットが含まれている。
この研究は、血液細胞データセットの品質を高めるだけでなく、細胞標的細胞の検出モデルの改善にも研究者を支援している。
- 参考スコア(独自算出の注目度): 9.232909679987326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a recent study, we found that publicly BCCD and BCD datasets have significant issues such as labeling errors, insufficient sample size, and poor data quality. To address these problems, we performed sample deletion, re-labeling, and integration of these two datasets. Additionally, we introduced the PBC and Raabin-WBC datasets, and ultimately created a high-quality, sample-balanced new dataset, which we named TXL-PBC. The dataset contains 1008 training sets, 288 validation sets, and 144 test sets. Firstly, The dataset underwent strict manual annotation, automatic annotation with YOLOv8n model, and manual audit steps to ensure the accuracy and consistency of annotations. Secondly, we addresses the blood cell mislabeling problem of the original datasets. The distribution of label boundary box areas and the number of labels are better than the BCCD and BCD datasets. Moreover, we used the YOLOv8n model to train these three datasets, the performance of the TXL-PBC dataset surpass the original two datasets. Finally, we employed YOLOv5n, YOLOv5s, YOLOv5l, YOLOv8s, YOLOv8m detection models as the baseline models for TXL-PBC. This study not only enhances the quality of the blood cell dataset but also supports researchers in improving models for blood cell target detection. We published our freely accessible TXL-PBC dataset at https://github.com/lugan113/TXL-PBC\_Dataset.
- Abstract(参考訳): 最近の研究では、BCDとBCDのデータセットには、エラーのラベル付け、サンプルサイズ不足、データ品質の低下など、重大な問題があることが判明した。
これらの問題に対処するため、サンプル削除、再ラベル化、これらの2つのデータセットの統合を行いました。
さらに、PBCとRaabin-WBCデータセットを導入し、最終的に高品質でサンプルバランスのよい新しいデータセットを作成しました。
データセットには1008のトレーニングセット、288の検証セット、144のテストセットが含まれている。
まず、データセットには厳密な手動アノテーション、YOLOv8nモデルによる自動アノテーション、アノテーションの正確性と一貫性を保証するための手動監査ステップが実施された。
第2に,元のデータセットの血液細胞ミスラベル問題に対処する。
ラベル境界ボックス領域の分布とラベルの数は、BCCDおよびBCDデータセットよりも優れている。
さらに、YOLOv8nモデルを用いてこれらの3つのデータセットをトレーニングし、TXL-PBCデータセットのパフォーマンスが元の2つのデータセットを上回った。
最後に,TXL-PBCのベースラインモデルとして,YOLOv5n,YOLOv5s,YOLOv5l,YOLOv8s,YOLOv8mの検出モデルを採用した。
この研究は、血液細胞データセットの品質を高めるだけでなく、血液細胞標的検出モデルの改善にも研究者を支援している。
アクセス可能なTXL-PBCデータセットをhttps://github.com/lugan113/TXL-PBC\_Datasetで公開しました。
関連論文リスト
- Leveraging Sparse Annotations for Leukemia Diagnosis on the Large Leukemia Dataset [44.948939549346676]
白血病は世界で10番目に頻繁に診断されるがんであり、がん関連死亡の原因の1つとなっている。
医学画像の深層学習の進歩にもかかわらず、白血病解析には多種多様なマルチタスクデータセットが欠けている。
大規模WBCデータセットと,その属性を用いてWBCを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T14:04:02Z) - Finetuning and Quantization of EEG-Based Foundational BioSignal Models on ECG and PPG Data for Blood Pressure Estimation [53.2981100111204]
光胸腺撮影と心電図は、連続血圧モニタリング(BP)を可能にする可能性がある。
しかし、データ品質と患者固有の要因の変化のため、正確で堅牢な機械学習(ML)モデルは依然として困難である。
本研究では,1つのモータリティで事前学習したモデルを効果的に利用して,異なる信号タイプの精度を向上させる方法について検討する。
本手法は, 拡張期BPの最先端精度を約1.5倍に向上し, 拡張期BPの精度を1.5倍に向上させる。
論文 参考訳(メタデータ) (2025-02-10T13:33:12Z) - DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability [0.0]
白血球(WBC)は免疫系の重要な部分です。
従来の畳み込みニューラルネットワーク(CNN)は、血液細胞を物体の一部から分類し、物体認識を行う。
本稿では,3つのCNNアーキテクチャを統合した新しいアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2025-02-08T05:53:20Z) - PDT: Uav Target Detection Dataset for Pests and Diseases Tree [4.469409505184921]
本研究は,樹木害虫や病害虫の検出を目的とした,UAVベースの高精度データセットの開発である。
公開データセットとネットワークデータを集約することで、Common Weed and Cropデータセットを導入します。
最後に, 雑草, 害虫, 病気の作物画像の高精度検出のためのYOLO-Dense Pest (YOLO-DP) モデルを提案する。
論文 参考訳(メタデータ) (2024-09-24T02:37:27Z) - Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation? [70.38903555729081]
我々はAutoPET3データ中心のトラックで競合するアプローチについて述べる。
AutoPETIIIデータセットでは、データセット全体をトレーニングしたモデルが望ましくない特性を示す。
我々は、スクラッチから再トレーニングする前に、モデル損失によって測定されたトレーニングデータセットから最も簡単なサンプルを取り除き、これを対処する。
論文 参考訳(メタデータ) (2024-09-20T14:47:58Z) - Segmentation Dataset for Reinforced Concrete Construction [4.32009010195029]
本稿では, 補強コンクリートの欠陥を自動検査するためのセグメンテーションラベル付き14,805枚のRGB画像のデータセットを提供する。
YOLOv8L-seg は、最大 0.59 のバリデーション mIOU スコアを達成する。
公開データの欠如は、偽陰性に対する重要な貢献であると認識されている。
論文 参考訳(メタデータ) (2024-07-12T15:53:15Z) - MMIL: A novel algorithm for disease associated cell type discovery [58.044870442206914]
単一細胞データセットは、しばしば個々の細胞ラベルを欠いているため、病気に関連する細胞を特定することは困難である。
セルレベルの分類器の訓練と校正を可能にする予測手法であるMixture Modeling for Multiple Learning Instance (MMIL)を導入する。
論文 参考訳(メタデータ) (2024-06-12T15:22:56Z) - Verifix: Post-Training Correction to Improve Label Noise Robustness with
Verified Samples [9.91998873101083]
トレーニング後の補正は、初期訓練後のモデルパラメータを調整し、ラベルノイズを軽減する。
Verifixは、小さな検証済みのデータセットを利用して、1回の更新でモデルの重みを補正する新しいアルゴリズムである。
25%の合成汚職を伴うCIFARデータセットの実験では、平均して7.36%の一般化改善が見られた。
論文 参考訳(メタデータ) (2024-03-13T15:32:08Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - Semi-Supervised Semantic Segmentation using Redesigned Self-Training for
White Blood Cells [3.957784193707817]
利用可能なデータセットの不足を効果的に活用するための半教師付き学習フレームワークを提案する。
自己学習(Self-training)とは、ラベル付きデータに基づいてトレーニングされたモデルを使用して、ラベルなしデータの擬似ラベルを生成し、その両方で再トレーニングする手法である。
自己学習パイプラインにFixMatchを組み込むことで、ほとんどのケースでパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2024-01-14T12:22:34Z) - DiffYOLO: Object Detection for Anti-Noise via YOLO and Diffusion Models [4.7846759259287985]
本稿では,DiffYOLO と呼ばれる YOLO モデルに適用可能なフレームワークを提案する。
具体的には,拡散確率モデルから特徴写像を抽出し,よく訓練されたモデルを強化する。
その結果、このフレームワークはノイズの多いデータセットのパフォーマンスを証明できるだけでなく、高品質なテストデータセットにおける検出結果も証明できることがわかった。
論文 参考訳(メタデータ) (2024-01-03T10:35:35Z) - Classification of All Blood Cell Images using ML and DL Models [7.737213476933511]
ヒトの血液は、主に血漿、赤血球、白血球、血小板から構成される。
栄養素を異なる臓器に輸送する上で重要な役割を担っている。
血液分析は、医師が個人の生理状態を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-08-11T07:57:12Z) - WBCAtt: A White Blood Cell Dataset Annotated with Detailed Morphological
Attributes [22.423647778787334]
本稿では,WBC(White Blood Cells)画像に対する包括的なアノテーションを提案する。
細胞とその成分に関連する11の形態学的特性を同定した。
我々はこれらの属性を画像から予測する実験を行い、基本的なWBC分類を超えた洞察を提供する。
論文 参考訳(メタデータ) (2023-06-23T14:52:37Z) - Computer-aided Tuberculosis Diagnosis with Attribute Reasoning
Assistance [58.01014026139231]
新しい大規模結核(TB)胸部X線データセット(TBX-Att)を提案する。
属性情報を利用してTBの分類とローカライズを行うための属性支援弱教師付きフレームワークを構築した。
提案モデルはTBX-Attデータセットで評価され,今後の研究の確かなベースラインとして機能する。
論文 参考訳(メタデータ) (2022-07-01T07:50:35Z) - Semantic Segmentation of Anaemic RBCs Using Multilevel Deep
Convolutional Encoder-Decoder Network [2.5398817423053037]
赤血球のセグメンテーションのための畳み込みニューラルネットワーク(CNN)モデルを提案する。
提案モデルでは,1つの層から抽出した画素レベルの意味情報を保存し,次の層に渡して関連する特徴を選択する。
この現象は、形態学的解析とともに、健康および貧血-RBC元素のピクセルレベルを正確にカウントするのに役立つ。
論文 参考訳(メタデータ) (2022-02-09T17:31:50Z) - Dynamic Kernel Matching for Non-conforming Data: A Case Study of T-cell
Receptor Datasets [0.0]
既存の統計分類器を変形させないデータを扱う手法について述べる。
i) 疾患抗原をラベル付けしたT細胞受容体 (TCR) 配列のデータセット, (ii) 患者サイトメガロウイルス (CMV) セロスタスをラベル付けしたTCRレパートリーのデータセットについて検討した。
論文 参考訳(メタデータ) (2021-03-18T18:39:14Z) - The Gap on GAP: Tackling the Problem of Differing Data Distributions in
Bias-Measuring Datasets [58.53269361115974]
バイアスモデルを検出する診断データセットは、自然言語処理におけるバイアス低減の重要な前提条件である。
収集されたデータの望ましくないパターンは、そのようなテストを誤ったものにします。
実験データにおけるそのようなパターンに対処するために, 実験サンプルを重み付けする理論的基礎的手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T16:50:13Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z) - Ensemble Transfer Learning for the Prediction of Anti-Cancer Drug
Response [49.86828302591469]
本稿では,抗がん剤感受性の予測にトランスファーラーニングを適用した。
我々は、ソースデータセット上で予測モデルをトレーニングし、ターゲットデータセット上でそれを洗練する古典的な転送学習フレームワークを適用した。
アンサンブル転送学習パイプラインは、LightGBMと異なるアーキテクチャを持つ2つのディープニューラルネットワーク(DNN)モデルを使用して実装されている。
論文 参考訳(メタデータ) (2020-05-13T20:29:48Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z) - Short Term Blood Glucose Prediction based on Continuous Glucose
Monitoring Data [53.01543207478818]
本研究では,デジタル意思決定支援ツールの入力として連続グルコースモニタリング(Continuous Glucose Monitoring, CGM)データを利用する方法について検討する。
短時間の血液グルコース (STBG) 予測において, リカレントニューラルネットワーク (Recurrent Neural Networks, RNN) をどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2020-02-06T16:39:44Z) - Low-Budget Label Query through Domain Alignment Enforcement [48.06803561387064]
我々は低予算ラベルクエリと呼ばれる新しい問題に取り組む。
まず、ソースとターゲットドメインの整合性を改善するために、Unsupervised Domain Adaptation (UDA) 法を改善します。
そこで我々は,予測整合分布の均一サンプリングに基づく簡易かつ効果的な選択法を提案する。
論文 参考訳(メタデータ) (2020-01-01T16:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。