論文の概要: An Enhancement of CNN Algorithm for Rice Leaf Disease Image Classification in Mobile Applications
- arxiv url: http://arxiv.org/abs/2412.07182v1
- Date: Tue, 10 Dec 2024 04:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:59.302632
- Title: An Enhancement of CNN Algorithm for Rice Leaf Disease Image Classification in Mobile Applications
- Title(参考訳): モバイル利用におけるイネ葉病画像分類のためのCNNアルゴリズムの強化
- Authors: Kayne Uriel K. Rodrigo, Jerriane Hillary Heart S. Marcial, Samuel C. Brillo, Khatalyn E. Mata, Jonathan C. Morano,
- Abstract要約: 本研究では,従来コンボリューショナルニューラルネットワーク(CNN)モデルに頼っていたイネ葉病画像分類アルゴリズムの強化に焦点を当てた。
我々は、CNNのローカル特徴抽出とVision Transformersのグローバルコンテキスト学習を統合する軽量モデルであるImageNet-1k weightsを用いて、MobileViTV2_050で転送学習を採用した。
このアプローチにより、MobileViTV2_050-Aの分類精度が15.66%向上し、ベースラインデータセットでトレーニングされた最初の拡張モデルが93.14%に達した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study focuses on enhancing rice leaf disease image classification algorithms, which have traditionally relied on Convolutional Neural Network (CNN) models. We employed transfer learning with MobileViTV2_050 using ImageNet-1k weights, a lightweight model that integrates CNN's local feature extraction with Vision Transformers' global context learning through a separable self-attention mechanism. Our approach resulted in a significant 15.66% improvement in classification accuracy for MobileViTV2_050-A, our first enhanced model trained on the baseline dataset, achieving 93.14%. Furthermore, MobileViTV2_050-B, our second enhanced model trained on a broader rice leaf dataset, demonstrated a 22.12% improvement, reaching 99.6% test accuracy. Additionally, MobileViTV2-A attained an F1-score of 93% across four rice labels and a Receiver Operating Characteristic (ROC) curve ranging from 87% to 97%. In terms of resource consumption, our enhanced models reduced the total parameters of the baseline CNN model by up to 92.50%, from 14 million to 1.1 million. These results indicate that MobileViTV2_050 not only improves computational efficiency through its separable self-attention mechanism but also enhances global context learning. Consequently, it offers a lightweight and robust solution suitable for mobile deployment, advancing the interpretability and practicality of models in precision agriculture.
- Abstract(参考訳): 本研究では,従来コンボリューショナルニューラルネットワーク(CNN)モデルに頼っていたイネ葉病画像分類アルゴリズムの強化に焦点を当てた。
我々は、CNNのローカル特徴抽出とVision Transformersのグローバルコンテキスト学習を統合する軽量モデルであるImageNet-1k weightsを用いて、MobileViTV2_050を用いた転送学習を採用した。
このアプローチにより、MobileViTV2_050-Aの分類精度が15.66%向上し、ベースラインデータセットでトレーニングされた最初の拡張モデルが93.14%に達した。
さらに,2番目の拡張モデルであるMobileViTV2_050-Bでは,22.12%の改善がみられ,99.6%の精度が得られた。
さらに、MobileViTV2-Aは4つの米ラベルで93%のF1スコアを獲得し、87%から97%の範囲で受信者動作特性(ROC)曲線を得た。
資源消費に関して、我々の強化されたモデルは、ベースラインCNNモデルの総パラメータを最大92.50%減らし、1400万から1100万に減らした。
これらの結果から,MobileViTV2_050は分離可能な自己認識機構によって計算効率を向上するだけでなく,グローバルな文脈学習も向上することが示された。
その結果、モバイルデプロイメントに適した軽量で堅牢なソリューションを提供し、精密農業におけるモデルの解釈可能性と実用性を向上させる。
関連論文リスト
- Enhancing Grammatical Error Detection using BERT with Cleaned Lang-8 Dataset [0.0]
本稿では,文法的誤り検出(GED)のためのLLMモデルの改良について述べる。
GEDへの従来のアプローチには手作業で設計された機能が含まれていたが、最近、ニューラルネットワーク(NN)がこれらの機能の発見を自動化した。
BERTベースの未使用モデルでは、F1スコアは0.91で、トレーニングデータの精度は98.49%であった。
論文 参考訳(メタデータ) (2024-11-23T10:57:41Z) - Analysis of Convolutional Neural Network-based Image Classifications: A Multi-Featured Application for Rice Leaf Disease Prediction and Recommendations for Farmers [0.0]
本研究では,8つの異なる畳み込みニューラルネットワーク(CNN)アルゴリズムを用いて,イネの病原性分類を改善する新しい方法を提案する。
この最先端のアプリケーションの助けを借りて、農家はタイムリーでインフォームドな意思決定ができる。
注目すべき結果は、ResNet-50の75%の精度、DenseNet121の90%の精度、VGG16の84%の精度、MobileNetV2の95.83%の精度、DenseNet169の91.61%の精度、InceptionV3の86%の精度である。
論文 参考訳(メタデータ) (2024-09-17T05:32:01Z) - An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation [0.799543372823325]
セグメント化モデルの一般化を促進するための拡張型モデル再適応フレームワーク(AMRF)を提案する。
従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。
その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
論文 参考訳(メタデータ) (2024-09-14T21:01:49Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Enhanced Infield Agriculture with Interpretable Machine Learning Approaches for Crop Classification [0.49110747024865004]
本研究では、SIFT、ORB、Color Histogramなどの手作り特徴抽出手法を用いた従来のML、カスタムデザインCNN、AlexNetのようなDLアーキテクチャの確立、ImageNetを用いて事前訓練された5つのモデルの移行学習の4つの異なる分類手法を評価する。
Xceptionはこれら全てを一般化し、80.03MBのモデルサイズと0.0633秒の予測時間で98%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-22T14:20:34Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - Lightweight Vision Transformer with Cross Feature Attention [6.103065659061625]
畳み込みニューラルネットワーク(CNN)は空間的帰納バイアスを利用して視覚表現を学習する。
ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。
我々はトランスのコスト削減のためにクロスフィーチャーアテンション(XFA)を提案し、効率的なモバイルCNNを組み合わせて新しい軽量CNN-ViTハイブリッドモデルXFormerを構築した。
論文 参考訳(メタデータ) (2022-07-15T03:27:13Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。