論文の概要: Analysis of Hyperparameter Optimization Effects on Lightweight Deep Models for Real-Time Image Classification
- arxiv url: http://arxiv.org/abs/2507.23315v2
- Date: Thu, 16 Oct 2025 13:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.446687
- Title: Analysis of Hyperparameter Optimization Effects on Lightweight Deep Models for Real-Time Image Classification
- Title(参考訳): リアルタイム画像分類のための軽量深度モデルに対するハイパーパラメータ最適化効果の解析
- Authors: Vineet Kumar Rakesh, Soumya Mazumdar, Tapas Samanta, Hemendra Kumar Pandey, Amitabha Das,
- Abstract要約: 本研究では,ConvNeXt-T,EfficientV2-S,MobileNetV3-L,MobileViT v2(S/XS),RepVGG-A2,TinyViT-21Mの7つの軽量アーキテクチャの精度と展開可能性を評価する。
チューニングだけでは、ベースラインを1.5から3.5パーセント上回るトップ1の精度向上につながり、選択されたモデルでは、レイテンシが5ミリ秒未満で、毎秒9800フレームを超える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lightweight convolutional and transformer-based networks are increasingly preferred for real-time image classification, especially on resource-constrained devices. This study evaluates the impact of hyperparameter optimization on the accuracy and deployment feasibility of seven modern lightweight architectures: ConvNeXt-T, EfficientNetV2-S, MobileNetV3-L, MobileViT v2 (S/XS), RepVGG-A2, and TinyViT-21M, trained on a class-balanced subset of 90,000 images from ImageNet-1K. Under standardized training settings, this paper investigates the influence of learning rate schedules, augmentation, optimizers, and initialization on model performance. Inference benchmarks are performed using an NVIDIA L40s GPU with batch sizes ranging from 1 to 512, capturing latency and throughput in real-time conditions. This work demonstrates that controlled hyperparameter variation significantly alters convergence dynamics in lightweight CNN and transformer backbones, providing insight into stability regions and deployment feasibility in edge artificial intelligence. Our results reveal that tuning alone leads to a top-1 accuracy improvement of 1.5 to 3.5 percent over baselines, and select models (e.g., RepVGG-A2, MobileNetV3-L) deliver latency under 5 milliseconds and over 9,800 frames per second, making them ideal for edge deployment. This work provides reproducible, subset-based insights into lightweight hyperparameter tuning and its role in balancing speed and accuracy. The code and logs may be seen at: https://vineetkumarrakesh.github.io/lcnn-opt
- Abstract(参考訳): 軽量な畳み込みとトランスフォーマーベースのネットワークは、特にリソース制約のあるデバイスにおいて、リアルタイムな画像分類にますます好まれている。
本研究では,超パラメータ最適化が7つの現代的な軽量アーキテクチャの精度と展開可能性に与える影響を評価する。ConvNeXt-T, EfficientNetV2-S, MobileNetV3-L, MobileViT v2 (S/XS), RepVGG-A2, TinyViT-21M。
本稿では,学習率スケジュール,強化,最適化,初期化がモデル性能に与える影響について検討する。
推論ベンチマークは1から512までのバッチサイズを持つNVIDIA L40s GPUを使用して実行され、リアルタイムでレイテンシとスループットをキャプチャする。
この研究は、制御されたハイパーパラメータ変動が軽量CNNとトランスフォーマーバックボーンの収束ダイナミクスを著しく変化させることを示し、エッジ人工知能における安定性領域とデプロイメント実現可能性に関する洞察を提供する。
その結果,チューニングだけでベースラインよりも1.5~3.5パーセントの精度向上を実現し,選択したモデル(RepVGG-A2,MobileNetV3-L)が5ミリ秒未満のレイテンシと1秒あたり9,800フレームを超えるレイテンシを実現し,エッジデプロイメントに最適であることが判明した。
この研究は、軽量なハイパーパラメータチューニングに対する再現可能なサブセットベースの洞察と、速度と精度のバランスにおけるその役割を提供する。
https://vineetkumarrakesh.github.io/lcnn-opt.com/logs
関連論文リスト
- AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Comparative Analysis of Lightweight Deep Learning Models for Memory-Constrained Devices [0.0]
CIFAR-10、CIFAR-100、Tiny ImageNetの3つの異なるデータセットで、最先端の5つのアーキテクチャがベンチマークされている。
モデルは、分類精度、推測時間、浮動小数点演算(FLOP)、モデルサイズという4つの重要なパフォーマンス指標を用いて評価される。
論文 参考訳(メタデータ) (2025-05-06T08:36:01Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Building Efficient Lightweight CNN Models [0.0]
畳み込みニューラルネットワーク(CNN)は、その堅牢な特徴抽出能力のため、画像分類タスクにおいて重要である。
本稿では,競争精度を維持しつつ軽量CNNを構築する手法を提案する。
提案モデルは手書き文字MNISTで99%,ファッションMNISTで89%,パラメータは14,862,モデルサイズは0.17MBであった。
論文 参考訳(メタデータ) (2025-01-26T14:39:01Z) - A hybrid framework for effective and efficient machine unlearning [12.499101994047862]
マシン・アンラーニング(MU)は、既に訓練済みのモデルパラメータから取り消されたサンプルのインプリントを取り除くために提案されている。
我々は、その上で、全体的な成功を達成するために、新しいハイブリッド戦略を提示する。
論文 参考訳(メタデータ) (2024-12-19T03:59:26Z) - REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning [23.92661395403251]
近年のリハーサルフリーな手法は,視覚関連連続学習(CL)とドリフトデータに優れ,資源効率に欠ける。
本稿では,Resource-Efficient Prompting(REP)を提案する。
提案手法は高速なプロンプト選択を用いて、注意深く設定されたモデルを用いて入力データを洗練する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - SchurVINS: Schur Complement-Based Lightweight Visual Inertial Navigation System [8.017085402991189]
フィルタに基づく新しいVINSフレームワークであるSchurVINSを提案する。
完全な残差モデルを構築し、計算複雑性を低くすることで、高い精度を保証できる。
EuRoC および TUM-VI データセットを用いた実験により,本手法は精度と計算複雑性の両方において,最先端(SOTA) 手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-04T04:14:09Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。