論文の概要: Beyond ImageNet: Understanding Cross-Dataset Robustness of Lightweight Vision Models
- arxiv url: http://arxiv.org/abs/2511.00335v1
- Date: Sat, 01 Nov 2025 00:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.72148
- Title: Beyond ImageNet: Understanding Cross-Dataset Robustness of Lightweight Vision Models
- Title(参考訳): ImageNetを超えて:軽量ビジョンモデルのクロスデータセットロバスト性を理解する
- Authors: Weidong Zhang, Pak Lun Kevin Ding, Huan Liu,
- Abstract要約: 本研究では,7つの異なるデータセットに対して,100時間周期でトレーニングした11個の軽量ビジョンモデル(2.5Mパラメータ)について,最初の体系的評価を行った。
我々は、様々な視覚領域にわたるモデルパフォーマンスの一貫性と堅牢性を定量化する統合メトリックであるクロスデータセットスコア(xScore)を紹介した。
- 参考スコア(独自算出の注目度): 13.660350750023055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lightweight vision classification models such as MobileNet, ShuffleNet, and EfficientNet are increasingly deployed in mobile and embedded systems, yet their performance has been predominantly benchmarked on ImageNet. This raises critical questions: Do models that excel on ImageNet also generalize across other domains? How can cross-dataset robustness be systematically quantified? And which architectural elements consistently drive generalization under tight resource constraints? Here, we present the first systematic evaluation of 11 lightweight vision models (2.5M parameters), trained under a fixed 100-epoch schedule across 7 diverse datasets. We introduce the Cross-Dataset Score (xScore), a unified metric that quantifies the consistency and robustness of model performance across diverse visual domains. Our results show that (1) ImageNet accuracy does not reliably predict performance on fine-grained or medical datasets, (2) xScore provides a scalable predictor of mobile model performance that can be estimated from just four datasets, and (3) certain architectural components--such as isotropic convolutions with higher spatial resolution and channel-wise attention--promote broader generalization, while Transformer-based blocks yield little additional benefit, despite incurring higher parameter overhead. This study provides a reproducible framework for evaluating lightweight vision models beyond ImageNet, highlights key design principles for mobile-friendly architectures, and guides the development of future models that generalize robustly across diverse application domains.
- Abstract(参考訳): MobileNet、ShuffleNet、EfficientNetといった軽量な視覚分類モデルは、モバイルおよび組み込みシステムにますますデプロイされているが、そのパフォーマンスはImageNetで主にベンチマークされている。
ImageNetに特有なモデルは、他のドメインにまたがって一般化するのでしょうか?
クロスデータセットのロバスト性はどのように体系的に定量化できるのか?
そして、どのアーキテクチャ要素が常にリソースの厳しい制約の下で一般化を促進するのか?
そこで本研究では,11個の軽量ビジョンモデル(2.5Mパラメータ)の体系的評価を行った。
我々は、様々な視覚領域にわたるモデルパフォーマンスの一貫性と堅牢性を定量化する統合メトリックであるクロスデータセットスコア(xScore)を紹介した。
以上の結果から,(1)画像ネットの精度は,詳細なデータセットや医療データセットのパフォーマンスを確実に予測できないこと,(2)xScoreは,わずか4つのデータセットから推定できるモバイルモデル性能のスケーラブルな予測器を提供し,(3)より高空間分解能の等方的畳み込みやチャネルワイド・アテンションの広範化など,ある種のアーキテクチャコンポーネントを提供する。
この研究は、ImageNetを超えて軽量ビジョンモデルを評価するための再現可能なフレームワークを提供し、モバイルフレンドリーなアーキテクチャの主要な設計原則を強調し、多様なアプリケーションドメインにまたがって堅牢に一般化される将来のモデルの開発をガイドする。
関連論文リスト
- ScaleNet: Scaling up Pretrained Neural Networks with Incremental Parameters [67.87703790962388]
視覚変換器(ViT)の効率的なスケーリング手法であるScaleNetを導入する。
従来のスクラッチからのトレーニングとは異なり、ScaleNetはパラメータの無視可能な増加を伴う迅速なモデル拡張を容易にする。
ScaleNetはトレーニングの3分の1しか必要とせず、スクラッチからトレーニングよりも精度が7.42%向上していることを示す。
論文 参考訳(メタデータ) (2025-10-21T09:07:25Z) - A Comparative Study of Vision Transformers and CNNs for Few-Shot Rigid Transformation and Fundamental Matrix Estimation [3.5684665108045377]
視覚変換器(ViT)と大規模畳み込みニューラルネット(CNN)は、事前訓練された特徴表現を通じてコンピュータビジョンを再構築した。
本研究は,1)画像間の2次元剛性変換を推定し,2)ステレオ画像対の基本行列を予測する。
経験的比較分析は、スクラッチからのトレーニングと同様、ViTsは大規模なダウンストリームデータシナリオの洗練時にCNNを上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-06T13:18:27Z) - Comparative Analysis of Lightweight Deep Learning Models for Memory-Constrained Devices [0.0]
CIFAR-10、CIFAR-100、Tiny ImageNetの3つの異なるデータセットで、最先端の5つのアーキテクチャがベンチマークされている。
モデルは、分類精度、推測時間、浮動小数点演算(FLOP)、モデルサイズという4つの重要なパフォーマンス指標を用いて評価される。
論文 参考訳(メタデータ) (2025-05-06T08:36:01Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - ComFe: An Interpretable Head for Vision Transformers [8.572967695281054]
解釈可能なコンピュータビジョンモデルは、画像の局所アノテーションとトレーニングデータを表すプロトタイプのセットとの距離を比較することで、それらの分類を説明する。
ComFeは私たちが知っている最初の解釈可能なアプローチであり、他の解釈可能なアプローチとは異なり、ImageNet Image-1Kとして簡単に適用できる。
論文 参考訳(メタデータ) (2024-03-07T00:44:21Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。