論文の概要: Impact of Hyperparameter Optimization on the Accuracy of Lightweight Deep Learning Models for Real-Time Image Classification
- arxiv url: http://arxiv.org/abs/2507.23315v1
- Date: Thu, 31 Jul 2025 07:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.231693
- Title: Impact of Hyperparameter Optimization on the Accuracy of Lightweight Deep Learning Models for Real-Time Image Classification
- Title(参考訳): リアルタイム画像分類のための軽量ディープラーニングモデルの精度に及ぼすハイパーパラメータ最適化の影響
- Authors: Vineet Kumar Rakesh, Soumya Mazumdar, Tapas Samanta, Sarbajit Pal, Amitabha Das,
- Abstract要約: 本研究では、7つの効率的なディープラーニングアーキテクチャの精度と収束挙動に及ぼすハイパーパラメータ調整の影響を解析する。
すべてのモデルは、一貫したトレーニング設定の下でImageNet-1Kデータセットでトレーニングされる。
その結果,コサイン学習速度の減衰と調整可能なバッチサイズは精度と収束速度を大きく向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lightweight convolutional and transformer-based models have become vital for real-time image classification in resource-constrained applications, such as embedded systems and edge devices. This work analyzes the influence of hyperparameter adjustment on the accuracy and convergence behavior of seven efficient deep learning architectures: EfficientNetV2-S, ConvNeXt-T, MobileViT v2 (XXS/XS/S), MobileNetV3-L, TinyViT-21M, and RepVGG-A2. All models are trained on the ImageNet-1K dataset under consistent training settings, with an emphasis on real-time practicality. An comprehensive ablation study is undertaken to separate the effect of critical hyperparameters, including learning rate schedules, batch sizes, input resolution, data augmentation, regularization approaches, and optimizer choice. To assess appropriateness for real-time applications, each model is assessed not only in terms of Top-1 and Top-5 classification accuracy, but also in terms of inference time, parameter count, model size, and frames-per-second (FPS) on a GPU-accelerated edge deployment simulation. Results demonstrate that cosine learning rate decay and adjustable batch size may greatly boost both accuracy and convergence speed, while keeping low latency and memory cost. Notably, RepVGG-A2 achieves over 80% Top-1 accuracy with efficient inference performance, offering a compelling balance between accuracy and deployment cost for VGG-style models. The results give practical guidance for constructing resource-efficient deep learning models appropriate for real-time image processing pipelines. All code and training logs are publicly accessible at https://github.com/VineetKumarRakesh/lcnn-opt.
- Abstract(参考訳): 組み込みシステムやエッジデバイスのようなリソース制約のあるアプリケーションにおいて、軽量な畳み込みモデルやトランスフォーマーベースのモデルはリアルタイムな画像分類に欠かせないものとなっている。
本研究では,ハイパーパラメータ調整が,効率的なNetV2-S,ConvNeXt-T,MobileViT v2 (XXS/XS/S),MobileNetV3-L,TinyViT-21M,RepVGG-A2の7つのディープラーニングアーキテクチャの精度と収束挙動に与える影響を分析する。
すべてのモデルは、一貫したトレーニング設定の下でImageNet-1Kデータセットでトレーニングされ、リアルタイムの実用性に重点を置いている。
学習速度スケジュール,バッチサイズ,入力解像度,データ拡張,正規化アプローチ,オプティマイザ選択など,重要なハイパーパラメータの影響を分離するための総合的アブレーション研究が実施されている。
リアルタイムアプリケーションの適切性を評価するため,各モデルは,Top-1とTop-5の分類精度だけでなく,GPU加速エッジ配置シミュレーションにおける推定時間,パラメータ数,モデルサイズ,フレーム毎秒(FPS)の観点から評価する。
その結果,コサイン学習率の低下とバッチサイズ調整により,レイテンシとメモリコストの低減を図りながら,精度と収束速度を大きく向上させる可能性が示唆された。
特に、RepVGG-A2は、効率の良い推論性能で80%以上のTop-1精度を実現し、VGGスタイルのモデルの精度とデプロイメントコストの大幅なバランスを提供する。
その結果,リアルタイム画像処理パイプラインに適した資源効率の高いディープラーニングモデルを構築するための実用的なガイダンスが得られた。
すべてのコードとトレーニングログはhttps://github.com/VineetKumarRakesh/lcnn-opt.comで公開されている。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Comparative Analysis of Lightweight Deep Learning Models for Memory-Constrained Devices [0.0]
CIFAR-10、CIFAR-100、Tiny ImageNetの3つの異なるデータセットで、最先端の5つのアーキテクチャがベンチマークされている。
モデルは、分類精度、推測時間、浮動小数点演算(FLOP)、モデルサイズという4つの重要なパフォーマンス指標を用いて評価される。
論文 参考訳(メタデータ) (2025-05-06T08:36:01Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Building Efficient Lightweight CNN Models [0.0]
畳み込みニューラルネットワーク(CNN)は、その堅牢な特徴抽出能力のため、画像分類タスクにおいて重要である。
本稿では,競争精度を維持しつつ軽量CNNを構築する手法を提案する。
提案モデルは手書き文字MNISTで99%,ファッションMNISTで89%,パラメータは14,862,モデルサイズは0.17MBであった。
論文 参考訳(メタデータ) (2025-01-26T14:39:01Z) - REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning [23.92661395403251]
近年のリハーサルフリーな手法は,視覚関連連続学習(CL)とドリフトデータに優れ,資源効率に欠ける。
本稿では,Resource-Efficient Prompting(REP)を提案する。
提案手法は高速なプロンプト選択を用いて、注意深く設定されたモデルを用いて入力データを洗練する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System [8.017085402991189]
フィルタに基づく新しいVINSフレームワークであるSchurVINSを提案する。
完全な残差モデルを構築し、計算複雑性を低くすることで、高い精度を保証できる。
EuRoC および TUM-VI データセットを用いた実験により,本手法は精度と計算複雑性の両方において,最先端(SOTA) 手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-04T04:14:09Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。