論文の概要: VeloxNet: Efficient Spatial Gating for Lightweight Embedded Image Classification
- arxiv url: http://arxiv.org/abs/2603.19496v1
- Date: Thu, 19 Mar 2026 21:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.901179
- Title: VeloxNet: Efficient Spatial Gating for Lightweight Embedded Image Classification
- Title(参考訳): VeloxNet:軽量埋め込み画像分類のための効率的な空間ゲーティング
- Authors: Md Meftahul Ferdaus, Elias Ioup, Mahdi Abdelguerfi, Anton Netchaev, Steven Sloan, Ken Pathak, Kendall N. Niles,
- Abstract要約: 本稿では,SqueezeNetのファイアモジュールを,組込み画像分類のためのゲート付き多層パーセプトロンブロックに置き換える軽量CNNアーキテクチャであるVeloxNetを紹介する。
VeloxNetを3つの航空画像データセット上で評価する。
- 参考スコア(独自算出の注目度): 1.9903316442426757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying deep learning models on embedded devices for tasks such as aerial disaster monitoring and infrastructure inspection requires architectures that balance accuracy with strict constraints on model size, memory, and latency. This paper introduces VeloxNet, a lightweight CNN architecture that replaces SqueezeNet's fire modules with gated multi-layer perceptron (gMLP) blocks for embedded image classification. Each gMLP block uses a spatial gating unit (SGU) that applies learned spatial projections and multiplicative gating, enabling the network to capture spatial dependencies across the full feature map in a single layer. Unlike fire modules, which are limited to local receptive fields defined by small convolutional kernels, the SGU provides global spatial modeling at each layer with fewer parameters. We evaluate VeloxNet on three aerial image datasets: the Aerial Image Database for Emergency Response (AIDER), the Comprehensive Disaster Dataset (CDD), and the Levee Defect Dataset (LDD), comparing against eleven baselines including MobileNet variants, ShuffleNet, EfficientNet, and recent vision transformers. VeloxNet reduces the parameter count by 46.1% relative to SqueezeNet (from 740,970 to 399,366) while improving weighted F1 scores by 6.32% on AIDER, 30.83% on CDD, and 2.51% on LDD. These results demonstrate that substituting local convolutional modules with spatial gating blocks can improve both classification accuracy and parameter efficiency for resource-constrained deployment. The source code will be made publicly available upon acceptance of the paper.
- Abstract(参考訳): 空中災害監視やインフラストラクチャインスペクションといったタスクのための組み込みデバイスにディープラーニングモデルをデプロイするには、モデルサイズ、メモリ、レイテンシに関する厳格な制約と精度のバランスをとるアーキテクチャが必要です。
本稿では,SqueezeNetのファイアモジュールを,組込み画像分類のためのゲート付き多層パーセプトロン(gMLP)ブロックに置き換える軽量CNNアーキテクチャであるVeloxNetを紹介する。
それぞれのgMLPブロックは、学習された空間投影と乗法ゲーティングを適用した空間ゲーティングユニット(SGU)を使用しており、ネットワークは単一層内の全特徴マップ全体にわたって空間依存性をキャプチャすることができる。
SGUは、小さな畳み込みカーネルによって定義された局所受容場に限定されるファイアモジュールとは異なり、各層でより少ないパラメータでグローバルな空間モデリングを提供する。
緊急対応のための航空画像データベース(AIDER)、包括的災害データセット(CDD)、およびレビー欠陥データセット(LDD)の3つの航空画像データセット上でVeloxNetを評価し、MobileNetの変種、ShuffleNet、EfficientNet、最近のビジョントランスフォーマーを含む11のベースラインと比較した。
VeloxNetはSqueezeNet(740,970から399,366)と比較してパラメータ数を46.1%削減し、AIDERでは6.32%、CDDでは30.83%、LCDでは2.51%改善した。
これらの結果から,空間的ゲーティングブロックによる局所的畳み込みモジュールの置換により,資源制約配置における分類精度とパラメータ効率が向上することが示唆された。
ソースコードは、論文の受理時に公開されます。
関連論文リスト
- DDUNet: Dual Dynamic U-Net for Highly-Efficient Cloud Segmentation [9.625982455419306]
クラウドセグメンテーションのためのDual Dynamic U-Net(DDUNet)を提案する。
DDUNetはU-Netアーキテクチャに準拠し、動的マルチスケール畳み込み(DMSC)と動的重みとバイアス発生(DWBG)という2つの重要なモジュールを統合する。
論文 参考訳(メタデータ) (2025-01-26T03:54:14Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification [19.40810553327253]
本稿では、視覚枝の領域ギャップを最小限に抑えるために、制御ネットとの安定拡散を取り入れた新しい事前学習フレームワークであるDiffCLIPを提案する。
ModelNet10、ModelNet40、ScanObjectNNデータセットの実験は、DiffCLIPが3D理解に強力な能力を持っていることを示している。
論文 参考訳(メタデータ) (2023-05-25T11:55:38Z) - DPNet: Dual-Path Network for Real-time Object Detection with Lightweight
Attention [15.360769793764526]
本稿では,リアルタイム物体検出のための軽量アテンション方式を用いて,DPNetというデュアルパスネットワークを提案する。
DPNetは、検出精度と実装効率の間の最先端のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-09-28T09:11:01Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。