論文の概要: Fusion of Foundation and Vision Transformer Model Features for Dermatoscopic Image Classification
- arxiv url: http://arxiv.org/abs/2505.16338v1
- Date: Thu, 22 May 2025 07:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.128399
- Title: Fusion of Foundation and Vision Transformer Model Features for Dermatoscopic Image Classification
- Title(参考訳): 皮膚内視鏡画像分類のためのファンデーションモデルとビジョントランスモデルの融合
- Authors: Amirreza Mahbod, Rupert Ecker, Ramona Woitek,
- Abstract要約: 皮膚病変分類のための2つの視覚変換器 (ViT) アーキテクチャと比較し, 皮膚科固有の基礎モデルであるPanDermの有用性を検討した。
HAM10000とMSKCCの実験では、PanDermベースのモデルが微調整スウィントランスモデルと相容れない性能を示した。
今後は、さらなる基礎モデル、微調整戦略、高度な融合技術について検討する予定である。
- 参考スコア(独自算出の注目度): 0.7369221426054146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate classification of skin lesions from dermatoscopic images is essential for diagnosis and treatment of skin cancer. In this study, we investigate the utility of a dermatology-specific foundation model, PanDerm, in comparison with two Vision Transformer (ViT) architectures (ViT base and Swin Transformer V2 base) for the task of skin lesion classification. Using frozen features extracted from PanDerm, we apply non-linear probing with three different classifiers, namely, multi-layer perceptron (MLP), XGBoost, and TabNet. For the ViT-based models, we perform full fine-tuning to optimize classification performance. Our experiments on the HAM10000 and MSKCC datasets demonstrate that the PanDerm-based MLP model performs comparably to the fine-tuned Swin transformer model, while fusion of PanDerm and Swin Transformer predictions leads to further performance improvements. Future work will explore additional foundation models, fine-tuning strategies, and advanced fusion techniques.
- Abstract(参考訳): 皮膚内視鏡像からの皮膚病変の正確な分類は皮膚癌の診断と治療に不可欠である。
本研究では,皮膚病変分類の課題に対する2つのViTアーキテクチャ(ViTベースとSwin Transformer V2ベース)と比較して,皮膚科固有の基盤モデルであるPanDermの有用性を検討した。
PanDermから抽出した凍結した特徴を用いて,多層パーセプトロン(MLP),XGBoost,TabNetという3つの異なる分類器を用いた非線形プローブを適用する。
ViTベースのモデルでは、分類性能を最適化するために完全な微調整を行う。
HAM10000およびMSKCCデータセットに対する実験により、PanDermベースのMLPモデルは微調整Swinトランスモデルと互換性があり、一方、PanDermとSwinトランスモデルの融合はさらなる性能向上をもたらすことが示された。
今後は、さらなる基礎モデル、微調整戦略、高度な融合技術について検討する予定である。
関連論文リスト
- MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation [0.8437187555622164]
本研究では、予め訓練されたLCMトランスブロックを統合することで、医用画像セグメンテーションのためのビジョントランス(ViT)の強化について検討する。
凍結LDM変換器ブロックをViTモデルエンコーダに組み込んだ手法により,セグメント化性能が大幅に向上した。
改良されたモデルでは、平均Diceスコアが0.74から0.79に向上し、精度、精度、ジャカード指数が向上した。
論文 参考訳(メタデータ) (2024-10-03T14:50:33Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - Masked Pre-Training of Transformers for Histology Image Analysis [4.710921988115685]
デジタル病理学では、がん診断や予後予測などの応用に全スライド画像(WSI)が広く用いられている。
パッチ間の空間的関係を保ちながら、WSIの広い領域を符号化するための有望な方法として、ビジュアルトランスフォーマーモデルが登場した。
本稿では,この問題を解決するためにラベル付きデータを使わずにトランスフォーマーモデルをトレーニングするためのプレテキストタスクを提案する。
我々のモデルであるMaskHITは、トランスフォーマー出力を用いて、マスクしたパッチを再構築し、それらの位置と視覚的特徴に基づいて代表的組織学的特徴を学習する。
論文 参考訳(メタデータ) (2023-04-14T23:56:49Z) - LesionAid: Vision Transformers-based Skin Lesion Generation and
Classification [0.0]
本研究では,ViTとViTGANに基づいて皮膚病変を分類する新しいマルチクラス予測フレームワークを提案する。
フレームワークは、ViTGAN、画像処理、説明可能なAIの4つの主要なフェーズで構成されている。
論文 参考訳(メタデータ) (2023-02-02T13:52:54Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Class-Aware Generative Adversarial Transformers for Medical Image
Segmentation [39.14169989603906]
医用画像セグメンテーションのための新規な生成逆変換器CA-GANformerを提案する。
まず、ピラミッド構造を利用してマルチスケール表現を構築し、マルチスケールのバリエーションを扱う。
次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。
論文 参考訳(メタデータ) (2022-01-26T03:50:02Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。