論文の概要: Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.04081v1
- Date: Wed, 04 Mar 2026 13:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.328853
- Title: Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers
- Title(参考訳): 微小パッチ制約下における細胞レベル組織像解析における基礎モデルの役割の再検討 -CNNと視覚変換器のトレーニングデータスケールとブルー摂動の影響-
- Authors: Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi, Takaaki Tachibana, Ryota Ito, Mitsugu Fujita, Kimihiro Yamashita, Yoshihiro Kakeji,
- Abstract要約: 細胞レベルでの病理画像解析は、非常に小さな画像パッチ(40×40ピクセル)で行う必要がある
小型細胞分類におけるアーキテクチャ適合性とデータスケールの影響を系統的に評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background and objective: Cell-level pathological image analysis requires working with extremely small image patches (40x40 pixels), far below standard ImageNet resolutions. It remains unclear whether modern deep learning architectures and foundation models can learn robust and scalable representations under this constraint. We systematically evaluated architectural suitability and data-scale effects for small-patch cell classification. Methods: We analyzed 303 colorectal cancer specimens with CD103/CD8 immunostaining, generating 185,432 annotated cell images. Eight task-specific architectures were trained from scratch at multiple data scales (FlagLimit: 256--16,384 samples per class), and three foundation models were evaluated via linear probing and fine-tuning after resizing inputs to 224x224 pixels. Robustness to blur was assessed using pre- and post-resize Gaussian perturbations. Results: Task-specific models improved consistently with increasing data scale, whereas foundation models saturated at moderate sample sizes. A Vision Transformer optimized for small patches (CustomViT) achieved the highest accuracy, outperforming all foundation models with substantially lower inference cost. Blur robustness was comparable across architectures, with no qualitative advantage observed for foundation models. Conclusion: For cell-level classification under extreme spatial constraints, task-specific architectures are more effective and efficient than foundation models once sufficient training data are available. Higher clean accuracy does not imply superior robustness, and large pre-trained models offer limited benefit in the small-patch regime.
- Abstract(参考訳): 背景と目的: 細胞レベルの病理画像解析は、非常に小さな画像パッチ(40×40ピクセル)で作業する必要がある。
現代のディープラーニングアーキテクチャや基礎モデルがこの制約の下で堅牢でスケーラブルな表現を学べるかどうかは不明だ。
小型細胞分類におけるアーキテクチャ適合性とデータスケールの影響を系統的に評価した。
方法:CD103/CD8免疫染色により303例の大腸癌検体を解析し,185,432個のアノテート細胞像を作製した。
8つのタスク固有のアーキテクチャを複数のデータスケール(FlagLimit:256-16,384サンプル)でスクラッチからトレーニングし,入力を224×224ピクセルにリサイズした後,線形探索と微調整により3つの基礎モデルを評価した。
ボーリングに対するロバストさはガウスの摂動の前後で評価された。
結果: タスク固有モデルはデータスケールの増加とともに一貫して改善され, 基礎モデルは適度なサンプルサイズで飽和した。
小型パッチ(CustomViT)に最適化されたビジョントランスフォーマーは、推論コストを大幅に下げた基礎モデルよりも高い精度を実現した。
ブルーロバスト性は、基礎モデルに定性的優位性を持たず、アーキテクチャ間で同等であった。
結論: 極端空間的制約下でのセルレベルの分類では, 十分なトレーニングデータが利用可能になると, タスク固有のアーキテクチャは基礎モデルよりも効率的かつ効率的になる。
よりクリーンな精度はロバスト性に優れておらず、大きな事前訓練されたモデルは小さなパッチ方式において限られた利益をもたらす。
関連論文リスト
- Less Is More: An Explainable AI Framework for Lightweight Malaria Classification [0.0]
この研究は、複雑なニューラルネットワークがマラリアの単純な二分分類タスクに不可欠であるかどうかを論じる。
本稿では,透過的で再現性があり,低計算機械学習アプローチであるExptracted Morphological Feature Engineered (EMFE)パイプラインを紹介する。
論文 参考訳(メタデータ) (2025-11-22T14:46:59Z) - Improving Diagnostic Performance on Small and Imbalanced Datasets Using Class-Based Input Image Composition [0.2676349883103403]
小さく不均衡なデータセットと入力画像の品質の低下は、ディープラーニングモデルによる高い誤予測率につながる可能性がある。
本稿では,同じクラスの複数の画像が統合された視覚合成系に融合することで,学習用インプットを再構成する手法であるクラスベースイメージコンポジションを提案する。
論文 参考訳(メタデータ) (2025-11-05T22:34:06Z) - A Lightweight and Extensible Cell Segmentation and Classification Model for Whole Slide Images [0.0]
本稿では,軽量なセルセグメンテーションと分類モデルを作成することにより,データ品質,モデル性能,ユーザビリティを向上させるソリューションを提案する。
そこで,PanNukeとMoNuSACのアノテーションを改良し,異なる7つのセルタイプで統一されたデータセットを生成する。
第3に、基礎モデルの計算要求に対処するため、比較性能を維持しながら、モデルのサイズと複雑さを減らすために知識を蒸留する。
論文 参考訳(メタデータ) (2025-02-26T15:19:52Z) - Enhanced Convolutional Neural Networks for Improved Image Classification [0.40964539027092917]
CIFAR-10は、小規模のマルチクラスデータセットの分類モデルの性能を評価するために広く使用されているベンチマークである。
本稿では,より深い畳み込みブロック,バッチ正規化,ドロップアウト正規化を統合したCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-02T04:32:25Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - DIME-FM: DIstilling Multimodal and Efficient Foundation Models [72.1900621000677]
VLFM(Large Vision-Language Foundation Models)は、画像キャプチャペアの大規模なデータセットに基づいてトレーニングされる。
我々は,大容量VLFMに含まれる知識を,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を導入する。
結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセットで事前トレーニングされたCLIP-ViT-B/32モデルと競合する。
論文 参考訳(メタデータ) (2023-03-31T17:47:23Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - Improved Techniques for Training Score-Based Generative Models [104.20217659157701]
本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
論文 参考訳(メタデータ) (2020-06-16T09:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。