論文の概要: CNN and ViT Efficiency Study on Tiny ImageNet and DermaMNIST Datasets
- arxiv url: http://arxiv.org/abs/2505.08259v1
- Date: Tue, 13 May 2025 06:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.443478
- Title: CNN and ViT Efficiency Study on Tiny ImageNet and DermaMNIST Datasets
- Title(参考訳): Tiny ImageNetとDermaMNISTデータセットのCNNとViT効率に関する研究
- Authors: Aidar Amangeldi, Angsar Taigonyrov, Muhammad Huzaid Jawad, Chinedu Emmanuel Mbonu,
- Abstract要約: 我々は,DermatologyMNISTとTinyImageNetの4種類の視覚変換器(Tiny, Small, Base, Large)に適用した微調整戦略を提案する。
適切に調整された視覚変換器は、ベースラインのパフォーマンスにマッチまたは超過し、より高速な推論を実現し、少ないパラメータで操作できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the trade-offs between convolutional and transformer-based architectures on both medical and general-purpose image classification benchmarks. We use ResNet-18 as our baseline and introduce a fine-tuning strategy applied to four Vision Transformer variants (Tiny, Small, Base, Large) on DermatologyMNIST and TinyImageNet. Our goal is to reduce inference latency and model complexity with acceptable accuracy degradation. Through systematic hyperparameter variations, we demonstrate that appropriately fine-tuned Vision Transformers can match or exceed the baseline's performance, achieve faster inference, and operate with fewer parameters, highlighting their viability for deployment in resource-constrained environments.
- Abstract(参考訳): 本研究では,医療用および汎用画像分類ベンチマークにおいて,畳み込み型アーキテクチャと変圧器型アーキテクチャのトレードオフを評価する。
我々は、ベースラインとしてResNet-18を使用し、DermatologyMNISTとTinyImageNetの4つのVision Transformer変種(Tiny, Small, Base, Large)に適用した微調整戦略を導入する。
私たちのゴールは、推論のレイテンシとモデルの複雑さを許容できる精度の劣化で削減することです。
系統的なハイパーパラメータ変動を通じて、適切に調整されたビジョントランスフォーマーがベースラインのパフォーマンスに適合または超越し、より高速な推論を実現し、より少ないパラメータで操作できることを示し、リソース制約のある環境に展開する際の生存可能性を強調した。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - GenFormer -- Generated Images are All You Need to Improve Robustness of Transformers on Small Datasets [11.343905946690352]
我々は、生成した画像を利用したデータ拡張戦略であるGenFormerを提案し、小型画像分類タスクにおける変換器の精度とロバスト性を改善する。
総合評価では、Tiny ImageNetの新たなテストセットとして、Tiny ImageNetV2, -R, -Aを提案する。
我々は,訓練データに制限のある困難条件下でのアプローチの有効性を実証し,精度と堅牢性の両方において有意な改善が示された。
論文 参考訳(メタデータ) (2024-08-26T09:26:08Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - A comparative study between vision transformers and CNNs in digital
pathology [1.71601014035428]
本研究は,4種類の組織を用いたデジタル病理像全体における腫瘍検出のための視覚変換器について検討する。
我々は、視覚変換器のDeiT-Tinyと最先端の畳み込みニューラルネットワークのResNet18を比較した。
その結果,ResNet18は腫瘍検出のための3種類の組織に対して,ResNet18よりも若干改善され,ResNet18は残りのタスクに対してわずかに改善された。
論文 参考訳(メタデータ) (2022-06-01T10:41:11Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Understanding Robustness of Transformers for Image Classification [34.51672491103555]
Vision Transformer (ViT)は画像分類のためにResNetsを抜いた。
Transformerアーキテクチャの詳細は、これらのネットワークが堅牢かどうかを疑問に思っている。
ViTモデルは、少なくともResNetが広範囲の摂動に匹敵するほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-03-26T16:47:55Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。