論文の概要: Hybrid Knowledge Transfer through Attention and Logit Distillation for On-Device Vision Systems in Agricultural IoT
- arxiv url: http://arxiv.org/abs/2504.16128v1
- Date: Mon, 21 Apr 2025 06:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.850882
- Title: Hybrid Knowledge Transfer through Attention and Logit Distillation for On-Device Vision Systems in Agricultural IoT
- Title(参考訳): 農業用IoTにおけるオンデバイスビジョンシステムのための注意とログ蒸留によるハイブリッドな知識伝達
- Authors: Stanley Mugisha, Rashid Kisitu, Florence Tushabe,
- Abstract要約: この研究は、精密農業におけるリアルタイムでエネルギー効率の高い作物モニタリングを推進している。
これは、エッジデバイス上でViTレベルの診断精度を実現する方法を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating deep learning applications into agricultural IoT systems faces a serious challenge of balancing the high accuracy of Vision Transformers (ViTs) with the efficiency demands of resource-constrained edge devices. Large transformer models like the Swin Transformers excel in plant disease classification by capturing global-local dependencies. However, their computational complexity (34.1 GFLOPs) limits applications and renders them impractical for real-time on-device inference. Lightweight models such as MobileNetV3 and TinyML would be suitable for on-device inference but lack the required spatial reasoning for fine-grained disease detection. To bridge this gap, we propose a hybrid knowledge distillation framework that synergistically transfers logit and attention knowledge from a Swin Transformer teacher to a MobileNetV3 student model. Our method includes the introduction of adaptive attention alignment to resolve cross-architecture mismatch (resolution, channels) and a dual-loss function optimizing both class probabilities and spatial focus. On the lantVillage-Tomato dataset (18,160 images), the distilled MobileNetV3 attains 92.4% accuracy relative to 95.9% for Swin-L but at an 95% reduction on PC and < 82% in inference latency on IoT devices. (23ms on PC CPU and 86ms/image on smartphone CPUs). Key innovations include IoT-centric validation metrics (13 MB memory, 0.22 GFLOPs) and dynamic resolution-matching attention maps. Comparative experiments show significant improvements over standalone CNNs and prior distillation methods, with a 3.5% accuracy gain over MobileNetV3 baselines. Significantly, this work advances real-time, energy-efficient crop monitoring in precision agriculture and demonstrates how we can attain ViT-level diagnostic precision on edge devices. Code and models will be made available for replication after acceptance.
- Abstract(参考訳): ディープラーニングアプリケーションを農業用IoTシステムに統合することは、ビジョントランスフォーマー(ViT)の高精度とリソース制約のあるエッジデバイスの効率性のバランスをとるという深刻な課題に直面します。
Swin Transformersのような大規模なトランスフォーマーモデルは、グローバルなローカル依存関係をキャプチャすることで、植物病の分類に優れている。
しかし、その計算複雑性(34.1 GFLOPs)はアプリケーションを制限し、リアルタイムのオンデバイス推論では実用的ではない。
MobileNetV3やTinyMLのような軽量モデルはデバイス上での推論に適しているが、微細な疾患検出に必要な空間的推論は欠如している。
このギャップを埋めるために,Swin Transformer 教師から MobileNetV3 学生モデルにロジットとアテンションの知識を相乗的に伝達するハイブリッド知識蒸留フレームワークを提案する。
本手法は,クロスアーキテクチャミスマッチ(解像度,チャネル)を解消するためのアダプティブアライメントの導入と,クラス確率と空間焦点の両方を最適化するデュアルロス関数を含む。
lantVillage-Tomatoデータセット(18,160イメージ)では、蒸留したMobileNetV3は、Swin-Lの95.9%と比較して92.4%の精度を実現しているが、PCでは95%削減され、IoTデバイスでは82%未満の遅延がある。
(PCのCPUでは23ms、スマートフォンのCPUでは86ms/image)。
主なイノベーションは、IoT中心のバリデーションメトリクス(13MBメモリ、0.22GFLOP)と動的解像度マッチングアテンションマップである。
比較実験では、スタンドアローンのCNNや蒸留法よりも大幅に改善され、MobileNetV3ベースラインよりも3.5%精度が向上した。
この研究は、精密農業におけるリアルタイムでエネルギー効率の高い作物モニタリングを推進し、エッジデバイス上でのViTレベルの診断精度をいかに達成できるかを実証する。
コードとモデルは、受け入れ後レプリケーションで利用可能になる。
関連論文リスト
- Semiconductor Wafer Map Defect Classification with Tiny Vision Transformers [0.0]
ウエハ欠陥分類に最適化された軽量ビジョントランス (ViT) フレームワークであるViT-Tinyを提案する。
ViT-Tinyは、MSF-TransやCNNベースのアーキテクチャなど、ViT-BaseとSOTA(State-of-the-art)モデルよりも優れている。
98.4%のF1スコアを達成し、4つの欠陥分類でMSF-Transを2.94%上回り、2つの欠陥分類では2.86%のリコールを改善し、3つの欠陥分類では3.13%の精度で精度を上げている。
論文 参考訳(メタデータ) (2025-04-03T11:18:00Z) - MobilePlantViT: A Mobile-friendly Hybrid ViT for Generalized Plant Disease Image Classification [2.0681376988193843]
植物病は世界の食料安全保障を著しく脅かす。
深層学習モデルは植物病の同定において顕著な性能を示した。
これらのモデルをモバイルおよびエッジデバイスにデプロイすることは、高い計算要求とリソース制約のため、依然として困難である。
植物病の一般的な分類のために設計された新しいハイブリッドビジョントランスフォーマー(ViT)アーキテクチャであるMobilePlantViTを提案する。
論文 参考訳(メタデータ) (2025-03-20T18:34:02Z) - Transforming Indoor Localization: Advanced Transformer Architecture for NLOS Dominated Wireless Environments with Distributed Sensors [7.630782404476683]
本稿では,電力遅延プロファイル (PDP) の可変固有表現を保存する新しいトークン化手法であるSensor Snapshot Tokenization (SST) を提案する。
また,Swish-Gated Linear Unit-based Transformer (L-SwiGLU Transformer) モデルを提案する。
論文 参考訳(メタデータ) (2025-01-14T01:16:30Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Fast Cell Library Characterization for Design Technology Co-Optimization Based on Graph Neural Networks [0.1752969190744922]
設計技術の共同最適化(DTCO)は、最適パワー、性能、領域を達成する上で重要な役割を果たす。
本稿では,高速かつ正確なセルライブラリ解析のためのグラフニューラルネットワーク(GNN)に基づく機械学習モデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T06:10:27Z) - Crop Disease Classification using Support Vector Machines with Green
Chromatic Coordinate (GCC) and Attention based feature extraction for IoT
based Smart Agricultural Applications [0.0]
植物病は農業栽培中の葉に悪影響を及ぼし、作物の生産量と経済的価値に大きな損失をもたらす。
各種機械学習(ML)と深層学習(DL)アルゴリズムが開発され,植物病の検出のための研究が行われている。
本稿では、注意に基づく特徴抽出、RGBチャネルに基づく色分析、SVM(Support Vector Machines)による性能向上による事前作業に基づく新しい分類手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T10:44:49Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z) - Adaptive Anomaly Detection for IoT Data in Hierarchical Edge Computing [71.86955275376604]
本稿では,階層型エッジコンピューティング(HEC)システムに対する適応型異常検出手法を提案する。
本研究では,入力データから抽出した文脈情報に基づいてモデルを選択する適応的手法を設計し,異常検出を行う。
提案手法を実際のIoTデータセットを用いて評価し,検出タスクをクラウドにオフロードするのとほぼ同じ精度を維持しながら,検出遅延を84%削減できることを実証した。
論文 参考訳(メタデータ) (2020-01-10T05:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。