論文の概要: Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification
- arxiv url: http://arxiv.org/abs/2602.18614v1
- Date: Fri, 20 Feb 2026 21:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.193732
- Title: Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification
- Title(参考訳): 2次元・3次元医用画像分類における微調整型視覚変換器のパッチサイズの影響
- Authors: Massoud Dehghan, Ramona Woitek, Amirreza Mahbod,
- Abstract要約: パッチサイズの違いがViT分類性能に与える影響を評価する。
我々は、ViTモデルを微調整し、より小さなパッチサイズで分類性能を一貫した改善を観察する。
以上の結果から,2次元データセットでは最大12.78%,3次元データセットでは最大23.78%のバランス精度の向上が示唆された。
- 参考スコア(独自算出の注目度): 0.7916799079378047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) and their variants have become state-of-the-art in many computer vision tasks and are widely used as backbones in large-scale vision and vision-language foundation models. While substantial research has focused on architectural improvements, the impact of patch size, a crucial initial design choice in ViTs, remains underexplored, particularly in medical domains where both two-dimensional (2D) and three-dimensional (3D) imaging modalities exist. In this study, using 12 medical imaging datasets from various imaging modalities (including seven 2D and five 3D datasets), we conduct a thorough evaluation of how different patch sizes affect ViT classification performance. Using a single graphical processing unit (GPU) and a range of patch sizes (1, 2, 4, 7, 14, 28), we fine-tune ViT models and observe consistent improvements in classification performance with smaller patch sizes (1, 2, and 4), which achieve the best results across nearly all datasets. More specifically, our results indicate improvements in balanced accuracy of up to 12.78% for 2D datasets (patch size 2 vs. 28) and up to 23.78% for 3D datasets (patch size 1 vs. 14), at the cost of increased computational expense. Moreover, by applying a straightforward ensemble strategy that fuses the predictions of the models trained with patch sizes 1, 2, and 4, we demonstrate a further boost in performance in most cases, especially for the 2D datasets. Our implementation is publicly available on GitHub: https://github.com/HealMaDe/MedViT
- Abstract(参考訳): ビジョントランスフォーマー(ViT)とその変種は、多くのコンピュータビジョンタスクにおいて最先端のものとなり、大規模ビジョンおよびビジョン言語基盤モデルのバックボーンとして広く使用されている。
特に2次元(2D)画像と3次元(3D)画像の両方が存在する医療領域では、多くの研究がアーキテクチャの改善に重点を置いているが、ViTにおける重要な初期設計選択であるパッチサイズの影響は未調査のままである。
本研究では,12種類の医用画像データセット(7つの2Dおよび5つの3Dデータセットを含む)を用いて,異なるパッチサイズがViT分類性能に与える影響を徹底的に評価する。
単一のグラフィカル処理ユニット (GPU) とパッチサイズ (1, 2, 4, 7, 7, 14 28) を用いて、ViTモデルを微調整し、より小さなパッチサイズ (1, 2, 4) で分類性能を一貫した改善を行い、ほぼすべてのデータセットで最高の結果を得る。
具体的には、2Dデータセットでは最大12.78%(パッチサイズ2対28)、3Dデータセットでは最大23.78%(パッチサイズ1対14)のバランス精度が向上し、計算コストが増大した。
さらに,パッチサイズ1,2,4でトレーニングしたモデルの予測を融合する簡単なアンサンブル戦略を適用することで,特に2Dデータセットにおいて,ほとんどのケースでパフォーマンスがさらに向上することを示す。
私たちの実装はGitHubで公開されている。 https://github.com/HealMaDe/MedViT
関連論文リスト
- VariViT: A Vision Transformer for Variable Image Sizes [19.721932776618964]
視覚変換器(ViT)は、表現学習における最先端のアーキテクチャとして登場した。
ViTはイメージを固定サイズパッチに分割し、事前に定義されたサイズに制限し、リサイズ、パディング、トリミングといった前処理ステップを必要とする。
可変画像サイズを一貫したパッチサイズを維持しながら処理する改良型ViTモデルであるVariViTを提案する。
論文 参考訳(メタデータ) (2026-02-16T10:20:46Z) - DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Foundation Models [45.12546316524245]
DARTは、完全に微分可能な動的領域適応型トケナイザである。
DARTは学習可能な領域スコアと量子ベースのパーティショニングを使用して、さまざまなサイズのコンテンツ認識パッチを生成する。
DART-Smallは、DiT-Base86の性能とほぼ2倍の推論速度で一致している。
論文 参考訳(メタデータ) (2025-06-12T06:25:37Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks [5.806035963947936]
拡散型3次元視覚変換器(Diff3Dformer)を提案する。
本手法は, 肺CTの2種類の小さなデータセットに対して, 改良された性能を示す。
論文 参考訳(メタデータ) (2024-06-24T23:23:18Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - Adapting Pre-trained Vision Transformers from 2D to 3D through Weight
Inflation Improves Medical Image Segmentation [19.693778706169752]
我々は2Dから3Dに事前訓練されたトランスフォーマーを適応させるために重量インフレーション戦略を使用し、トランスファーラーニングと深度情報の両方の利点を維持している。
提案手法は,幅広い3次元医用画像データセットを対象とした最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-02-08T19:38:13Z) - MedMNIST v2: A Large-Scale Lightweight Benchmark for 2D and 3D
Biomedical Image Classification [59.10015984688104]
MedMNIST v2は、MNISTに似た大規模データセットコレクションである。
得られたデータセットは708,069個の2D画像と10,214個の3D画像で構成されている。
論文 参考訳(メタデータ) (2021-10-27T22:02:04Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。