論文の概要: Convolutional Neural Nets vs Vision Transformers: A SpaceNet Case Study with Balanced vs Imbalanced Regimes
- arxiv url: http://arxiv.org/abs/2510.03297v1
- Date: Mon, 29 Sep 2025 21:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.728565
- Title: Convolutional Neural Nets vs Vision Transformers: A SpaceNet Case Study with Balanced vs Imbalanced Regimes
- Title(参考訳): 畳み込みニューラルネット対視覚変換器:バランスとバランスの取れたレジームを用いたスペースネットケーススタディ
- Authors: Akshar Gothi,
- Abstract要約: 本研究では,SpaceNet上の畳み込みニューラルネットワーク (EfficientNet-B0) とビジョントランスフォーマー (ViT-Base) を比較した。
精度、マクロF1、バランスの取れた精度、クラスごとのリコール、デプロイメントメトリクスを報告します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a controlled comparison of a convolutional neural network (EfficientNet-B0) and a Vision Transformer (ViT-Base) on SpaceNet under two label-distribution regimes: a naturally imbalanced five-class split and a balanced-resampled split with 700 images per class (70:20:10 train/val/test). With matched preprocessing (224x224, ImageNet normalization), lightweight augmentations, and a 40-epoch budget on a single NVIDIA P100, we report accuracy, macro-F1, balanced accuracy, per-class recall, and deployment metrics (model size and latency). On the imbalanced split, EfficientNet-B0 reaches 93% test accuracy with strong macro-F1 and lower latency; ViT-Base is competitive at 93% with a larger parameter count and runtime. On the balanced split, both models are strong; EfficientNet-B0 reaches 99% while ViT-Base remains competitive, indicating that balancing narrows architecture gaps while CNNs retain an efficiency edge. We release manifests, logs, and per-image predictions to support reproducibility.
- Abstract(参考訳): 本研究では,SpaceNet上の畳み込みニューラルネットワーク (EfficientNet-B0) とビジョントランスフォーマー (ViT-Base) を,自然に不均衡な5クラススプリットとバランスの取れたスプリット (70:20:10 train/val/test) で比較した。
一致した前処理(224x224, ImageNet正規化)、軽量化、一台のNVIDIA P100上での40エポック予算により、精度、マクロF1、バランスの取れた精度、クラスごとのリコール、デプロイメントメトリクス(モデルサイズとレイテンシ)を報告します。
不均衡なスプリットでは、EfficientNet-B0が93%のテスト精度に達し、強力なマクロF1と低レイテンシを実現している。
EfficientNet-B0は99%に達し、ViT-Baseは競争力を維持する。
再現性をサポートするために、マニフェスト、ログ、イメージごとの予測をリリースします。
関連論文リスト
- Vehicle Classification under Extreme Imbalance: A Comparative Study of Ensemble Learning and CNNs [0.0]
車両のタイプ認識は、インテリジェントな輸送とロジスティクスを支えるが、公共データセットの厳しいクラス不均衡は、稀なカテゴリーのパフォーマンスを抑制する。
我々は、Kaggle、ImageNet、およびWebcrawledデータを統合することで、16クラスのコーパス(47k画像)をキュレートし、SMOTEオーバーサンプリングとターゲットアンダーサンプリングにより6つのバランスの取れた変種を生成する。
Random Forest、AdaBoost、MobileNet-V2機能上に構築されたソフトボッティングコンバインダなどの軽量アンサンブルは、強力な拡張とラベルスムーシングでトレーニングされたResNetスタイルのCNNに対してベンチマークされる。
論文 参考訳(メタデータ) (2025-09-29T14:56:56Z) - FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - Lightweight Real-time Semantic Segmentation Network with Efficient
Transformer and CNN [34.020978009518245]
LETNetと呼ばれる軽量なリアルタイムセマンティックセグメンテーションネットワークを提案する。
LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。
挑戦的なデータセットで実施された実験は、LETNetが精度と効率のバランスにおいて優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-02-21T07:16:53Z) - MogaNet: Multi-order Gated Aggregation Network [61.842116053929736]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - Elastic-Link for Binarized Neural Network [9.83865304744923]
ELモジュールは、その後の畳み込み出力特徴に実値入力特徴を適応的に付加することにより、BNN内の情報フローを豊かにする。
ELは、大規模なImageNetデータセットに挑戦する上で、大幅に改善されている。
ReActNetの統合により、71.9%の精度で新しい最先端結果が得られる。
論文 参考訳(メタデータ) (2021-12-19T13:49:29Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Fixing the train-test resolution discrepancy: FixEfficientNet [98.64315617109344]
本稿では,複数のトレーニング手順を用いて,効率的なNet画像分類器の性能解析を行う。
FixEfficientNetと呼ばれる結果のネットワークは、同じ数のパラメータで初期アーキテクチャを著しく上回る。
論文 参考訳(メタデータ) (2020-03-18T14:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。