論文の概要: Dataset creation for supervised deep learning-based analysis of microscopic images - review of important considerations and recommendations
- arxiv url: http://arxiv.org/abs/2512.04564v1
- Date: Thu, 04 Dec 2025 08:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.070513
- Title: Dataset creation for supervised deep learning-based analysis of microscopic images - review of important considerations and recommendations
- Title(参考訳): 微視的画像の教師付き深層学習に基づく分析のためのデータセット作成 -重要な考察と勧告のレビュー-
- Authors: Christof A. Bertram, Viktoria Weiss, Jonas Ammeling, F. Maria Schabel, Taryn A. Donovan, Frauke Wilm, Christian Marzahl, Katharina Breininger, Marc Aubreville,
- Abstract要約: 監視型ディープラーニング(DL)は,顕微鏡画像の自動解析に非常に関心がある。
DLモデルは高品質で大規模なデータセットの可用性に大きく依存している。
このレビューは、データセット作成における重要なステップの包括的なガイドを提供する。
- 参考スコア(独自算出の注目度): 1.5380966418154165
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Supervised deep learning (DL) receives great interest for automated analysis of microscopic images with an increasing body of literature supporting its potential. The development and validation of those DL models relies heavily on the availability of high-quality, large-scale datasets. However, creating such datasets is a complex and resource-intensive process, often hindered by challenges such as time constraints, domain variability, and risks of bias in image collection and label creation. This review provides a comprehensive guide to the critical steps in dataset creation, including: 1) image acquisition, 2) selection of annotation software, and 3) annotation creation. In addition to ensuring a sufficiently large number of images, it is crucial to address sources of image variability (domain shifts) - such as those related to slide preparation and digitization - that could lead to algorithmic errors if not adequately represented in the training data. Key quality criteria for annotations are the three "C"s: correctness, completeness, and consistency. This review explores methods to enhance annotation quality through the use of advanced techniques that mitigate the limitations of single annotators. To support dataset creators, a standard operating procedure (SOP) is provided as supplemental material, outlining best practices for dataset development. Furthermore, the article underscores the importance of open datasets in driving innovation and enhancing reproducibility of DL research. By addressing the challenges and offering practical recommendations, this review aims to advance the creation of and availability to high-quality, large-scale datasets, ultimately contributing to the development of generalizable and robust DL models for pathology applications.
- Abstract(参考訳): Supervised Deep Learning (DL) は、顕微鏡画像の自動解析に非常に興味を持ち、その可能性を裏付ける文献が増えている。
これらのDLモデルの開発と検証は、高品質で大規模なデータセットの可用性に大きく依存しています。
しかしながら、そのようなデータセットの作成は複雑でリソース集約的なプロセスであり、時間制約やドメインの可変性、画像収集やラベル作成におけるバイアスのリスクといった課題に悩まされることが多い。
このレビューは、データセット作成における重要なステップの包括的なガイドを提供する。
1)画像取得
2)アノテーションソフトウェアの選択,及び
3)アノテーションの作成。
十分な数の画像の確保に加えて、スライド作成やデジタル化など、トレーニングデータに適切に表現されていない場合のアルゴリズムエラーにつながるような、画像の可変性(ドメインシフト)の源泉に対処することが不可欠である。
アノテーションの主な品質基準は、3つの"C"(正確性、完全性、一貫性)である。
本稿では,単一アノテータの制限を緩和する高度な技術を用いて,アノテーションの品質向上手法について検討する。
データセット作成をサポートするため、標準動作手順(SOP)が補足材料として提供され、データセット開発のためのベストプラクティスの概要が述べられている。
さらに、この論文は、オープンデータセットがイノベーションを推進し、DL研究の再現性を高めることの重要性を強調している。
課題に対処し、実用的なレコメンデーションを提供することにより、高品質で大規模なデータセットの作成と提供を推進し、最終的に、病理学応用のための一般化可能な、堅牢なDLモデルの開発に寄与することを目的としている。
関連論文リスト
- PSR: Scaling Multi-Subject Personalized Image Generation with Pairwise Subject-Consistency Rewards [86.1965460124838]
スケーラブルなマルチオブジェクトデータ生成パイプラインを提案する。
まず、単一オブジェクトのパーソナライズモデルを用いて、マルチイメージおよびマルチオブジェクトシナリオの知識を得る。
主観的整合性とテキスト制御性を両立させるため,ペアワイズ・サブジェスト・コンシスタンス・リワードを設計する。
論文 参考訳(メタデータ) (2025-12-01T03:25:49Z) - Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content [71.46991494014382]
本稿では,AI生成画像におけるリアリズムと妥当性の詳細な評価のための新しいデータセットであるQ-Realを紹介する。
Q-Realは、人気のあるテキスト・ツー・イメージ・モデルによって生成される3,088のイメージで構成されている。
そこで本研究では,Q-Real Benchを2つの課題,すなわち判断と推論による根拠付けに基づいて評価する。
論文 参考訳(メタデータ) (2025-11-21T02:43:17Z) - VISTA: A Visual Analytics Framework to Enhance Foundation Model-Generated Data Labels [30.699079182148054]
マルチモーダルモデルの性能を向上させるためにデータ品質を改善するビジュアル分析フレームワークであるVISTAを紹介する。
我々は、VISTAがマルチフェーズデータ検証戦略と人間の専門知識を統合する方法を示し、FM生成ラベル内の隠れた問題を特定し、理解し、修正することを可能にする。
論文 参考訳(メタデータ) (2025-07-11T20:17:23Z) - Advanced Clustering Framework for Semiconductor Image Analytics Integrating Deep TDA with Self-Supervised and Transfer Learning Techniques [1.03121181235382]
本稿では,深部トポロジカルデータ分析(TDA)と自己教師あり・伝達学習技術を統合した高度なクラスタリングフレームワークを提案する。
このフレームワークは、欠陥パターンとプロセスのバリエーションに整合したクラスタをうまく識別する。
論文 参考訳(メタデータ) (2025-05-05T17:53:03Z) - Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。
本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。
都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:23:29Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Less is more: Ensemble Learning for Retinal Disease Recognition Under
Limited Resources [12.119196313470887]
本稿では,限られた資源で網膜疾患を認識できる新しいアンサンブル学習機構を提案する。
このメカニズムは、複数の事前訓練されたモデルからの洞察を活用し、その知識を網膜CT画像に転送し適応させる。
論文 参考訳(メタデータ) (2024-02-15T06:58:25Z) - SynDrone -- Multi-modal UAV Dataset for Urban Scenarios [11.338399194998933]
ピクセルレベルのアノテーションを持つ大規模な実際のデータセットの不足は、研究者にとって大きな課題となっている。
本研究では,複数の飛行高度で撮影された画像と3次元データを含むマルチモーダル合成データセットを提案する。
データセットは、UAVアプリケーションをターゲットにした新しいコンピュータビジョンメソッドの開発をサポートするために公開されます。
論文 参考訳(メタデータ) (2023-08-21T06:22:10Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。