論文の概要: CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging
- arxiv url: http://arxiv.org/abs/2510.27442v1
- Date: Fri, 31 Oct 2025 12:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.102915
- Title: CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging
- Title(参考訳): CoMViT : 医用画像の高次分類のための高能率ビジョンバックボーン
- Authors: Aon Safdar, Mohamed Saadeldin,
- Abstract要約: CoMViTは、リソース制約のある医用画像解析に最適化された、コンパクトで一般化可能なVision Transformerアーキテクチャである。
12のMedMNISTデータセットで堅牢なパフォーマンスを実現し、4.5Mパラメータしか持たない軽量な設計を維持している。
- 参考スコア(独自算出の注目度): 0.3683202928838613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have demonstrated strong potential in medical imaging; however, their high computational demands and tendency to overfit on small datasets limit their applicability in real-world clinical scenarios. In this paper, we present CoMViT, a compact and generalizable Vision Transformer architecture optimized for resource-constrained medical image analysis. CoMViT integrates a convolutional tokenizer, diagonal masking, dynamic temperature scaling, and pooling-based sequence aggregation to improve performance and generalization. Through systematic architectural optimization, CoMViT achieves robust performance across twelve MedMNIST datasets while maintaining a lightweight design with only ~4.5M parameters. It matches or outperforms deeper CNN and ViT variants, offering up to 5-20x parameter reduction without sacrificing accuracy. Qualitative Grad-CAM analyses show that CoMViT consistently attends to clinically relevant regions despite its compact size. These results highlight the potential of principled ViT redesign for developing efficient and interpretable models in low-resource medical imaging settings.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は医用画像に強い可能性を示しているが、その高い計算要求と小さなデータセットに過度に適合する傾向は、実際の臨床シナリオにおける適用性を制限している。
本稿では,リソース制約のある医用画像解析に最適化された,コンパクトで一般化可能なビジョントランスフォーマアーキテクチャであるCoMViTを提案する。
CoMViTは、畳み込みトークンライザ、対角マスク、動的温度スケーリング、プールベースのシーケンスアグリゲーションを統合し、性能と一般化を改善している。
体系的なアーキテクチャ最適化を通じて、CoMViTは12のMedMNISTデータセットで堅牢なパフォーマンスを実現し、わずか4.5Mのパラメータしか持たない軽量な設計を維持している。
より深いCNNとViTのバリエーションにマッチし、精度を犠牲にすることなく最大5~20倍のパラメータ還元を提供する。
定性的グレード-CAM分析は、CoMViTはコンパクトなサイズにもかかわらず、臨床関連領域に一貫して関与していることを示している。
これらの結果は、低解像度医用画像設定において、効率的かつ解釈可能なモデルを開発するための原則的ViT再設計の可能性を強調している。
関連論文リスト
- ClipGS: Clippable Gaussian Splatting for Interactive Cinematic Visualization of Volumetric Medical Data [51.095474325541794]
医用データのインタラクティブなシネマティック可視化のためのクリッピングプレーンを備えた革新的なガウススプレイティングフレームワークであるClipGSを紹介した。
本手法を5つのボリューム医療データで検証し,平均36.635 PSNRレンダリング品質を156 FPS,16.1MBモデルサイズで達成した。
論文 参考訳(メタデータ) (2025-07-09T08:24:28Z) - CNN and ViT Efficiency Study on Tiny ImageNet and DermaMNIST Datasets [0.0]
我々は,DermatologyMNISTとTinyImageNetの4種類の視覚変換器(Tiny, Small, Base, Large)に適用した微調整戦略を提案する。
適切に調整された視覚変換器は、ベースラインのパフォーマンスにマッチまたは超過し、より高速な推論を実現し、少ないパラメータで操作できることを実証する。
論文 参考訳(メタデータ) (2025-05-13T06:17:18Z) - Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention [9.359961857595144]
一般的な医用画像分類のための医療ビジョン変換器(MedViTV2)を紹介する。
MedViTV2は前バージョンよりも計算効率が44%高い。
MedMNISTでは4.6%、NonMNISTでは5.8%、MedMNIST-Cベンチマークでは13.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-02-19T13:05:50Z) - RWKV-UNet: Improving UNet with Long-Range Cooperation for Effective Medical Image Segmentation [70.79072961974141]
本稿では,RWKV構造をU-Netアーキテクチャに統合する新しいモデルであるRWKV-UNetを提案する。
この統合により、長い範囲の依存関係をキャプチャし、コンテキスト理解を改善するモデルの能力が向上する。
11のベンチマークデータセットの実験により、RWKV-UNetは様々なタイプの医用画像セグメンテーションタスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-01-14T22:03:00Z) - Rethinking model prototyping through the MedMNIST+ dataset collection [0.11999555634662634]
この作業では、MedMNIST+データセットコレクションの包括的なベンチマークを導入する。
我々は、一般的なCNN(Convolutional Neural Networks)とViT(Vision Transformer)アーキテクチャを、異なる医療データセットにわたって再評価する。
この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルが,エンドツーエンドのトレーニングに有効な代替手段を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-24T10:19:25Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。