論文の概要: AgriKD: Cross-Architecture Knowledge Distillation for Efficient Leaf Disease Classification
- arxiv url: http://arxiv.org/abs/2605.01355v1
- Date: Sat, 02 May 2026 09:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.723054
- Title: AgriKD: Cross-Architecture Knowledge Distillation for Efficient Leaf Disease Classification
- Title(参考訳): AgriKD:効率的な葉疾患分類のためのクロスアーキテクチャ知識蒸留
- Authors: Minh-Dung Le, Minh-Duc Hoang, Hoang-Vu Truong, Thi-Thu-Hong Phan,
- Abstract要約: AgriKDは効率的なエッジデプロイメントのためのクロスアーキテクチャ知識蒸留フレームワークである。
ビジョントランスフォーマー(ViT)の教師から、コンパクトな畳み込み学生モデルに知識を移す。
それは無視できる精度で一貫した予測性能を達成する。
- 参考スコア(独自算出の注目度): 0.05599792629509228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated leaf disease classification is critical for early disease detection in resource-constrained field environments. Vision Transformers (ViTs) provide strong representation capability by modeling long-range dependencies and inter-class relationships; however, their high computational cost makes them impractical for deployment on edge devices. As a result, existing approaches struggle to effectively transfer these rich representations to lightweight models. This paper introduces AgriKD, a cross-architecture knowledge distillation framework for efficient edge deployment, which transfers knowledge from a Vision Transformer (ViT) teacher to a compact convolutional student model. To bridge the representational gap between Transformer and CNN architectures, the proposed approach integrates multiple distillation objectives at the output, feature, and relational levels, where each objective captures a different aspect of the teacher knowledge. This enables the student model to better preserve and utilize transformer-derived global representations. Experiments on multiple leaf disease datasets show that the distilled student achieves performance comparable to the teacher while significantly improving efficiency, reducing model parameters by approximately 172 times, computational cost by 47.57 times, and inference latency by 18-22 times. Furthermore, the optimized model is deployed across multiple runtime formats, including ONNX, TFLite Float16, and TensorRT FP16, achieving consistent predictive performance with negligible accuracy degradation. Real-world deployment on NVIDIA Jetson edge devices and a mobile application demonstrates reliable real-time inference, highlighting the practicality of AgriKD for AI-powered agricultural applications in resource-constrained environments.
- Abstract(参考訳): 自動葉病分類は, 資源制約環境下での早期の病原体検出に重要である。
視覚変換器(ViT)は、長距離依存とクラス間関係をモデル化することによって、強力な表現能力を提供するが、その高い計算コストは、エッジデバイスへのデプロイにおいて実用的ではない。
結果として、既存のアプローチは、これらのリッチな表現を軽量モデルに効果的に転送するのに苦労している。
本稿では,視覚変換器(ViT)の教師からコンパクトな畳み込み学習者モデルに知識を伝達する,効率的なエッジ展開のためのクロスアーキテクチャ知識蒸留フレームワークであるAgriKDを紹介する。
トランスフォーマーとCNNアーキテクチャ間の表現的ギャップを埋めるために,提案手法は,教師の知識の異なる側面を捉えた出力,特徴,関係レベルにおいて,複数の蒸留目標を統合する。
これにより、学生モデルはトランスフォーマーから派生したグローバル表現をよりよく保存し、活用することができる。
複数の葉病データセットの実験により、蒸留した学生は教師に匹敵する性能を達成し、効率を大幅に向上し、モデルパラメータを約172倍、計算コストを47.57倍、推論遅延を18-22倍に削減した。
さらに、最適化されたモデルは、ONNX、TFLite Float16、TensorRT FP16を含む複数のランタイムフォーマットにデプロイされ、無視できる精度の劣化で一貫した予測性能を達成する。
NVIDIA Jetsonエッジデバイスとモバイルアプリケーションの実世界展開は、リソース制約のある環境におけるAIによる農業アプリケーションのためのAgriKDの実用性を強調し、信頼性の高いリアルタイム推論を示す。
関連論文リスト
- DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer [10.030998208145807]
大規模ビジョンランゲージモデル(VLM)は、細粒度の視覚分類に非常に有用なリッチなマルチモーダルセマンティクスを符号化する。
計算コストの禁止は、資源制約のある環境での実践的な展開を妨げる。
本稿では,VLM から軽量学生への適応的知識伝達を容易にするために,DAIT (Adaptive Intermediate Teacher Transfer) を提案する。
論文 参考訳(メタデータ) (2026-03-16T12:00:31Z) - SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices [72.0937240883345]
拡散変圧器(DiT)の最近の進歩は、画像生成の新たな標準を定めているが、デバイス上での展開には実用的ではない。
本稿では,厳密なリソース制約の下でトランスフォーマーレベルの生成品質を実現するモバイルおよびエッジデバイスに適した効率的なDiTフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-13T07:46:46Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - Distilling Knowledge from CNN-Transformer Models for Enhanced Human
Action Recognition [1.8722948221596285]
本研究の目的は、より大規模な教師モデルから知識を伝達することで、より小さな学生モデルの性能と効率を向上させることである。
提案手法では,生徒モデルとしてトランスフォーマー・ビジョン・ネットワークを使用し,教師モデルとして畳み込みネットワークが機能する。
Vision Transformer (ViT) アーキテクチャは、画像のグローバルな依存関係をキャプチャするための堅牢なフレームワークとして導入された。
論文 参考訳(メタデータ) (2023-11-02T14:57:58Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。