論文の概要: Plant Disease Detection through Multimodal Large Language Models and Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2504.20419v1
- Date: Tue, 29 Apr 2025 04:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.752641
- Title: Plant Disease Detection through Multimodal Large Language Models and Convolutional Neural Networks
- Title(参考訳): マルチモーダル大言語モデルと畳み込みニューラルネットワークによる植物病検出
- Authors: Konstantinos I. Roumeliotis, Ranjan Sapkota, Manoj Karkee, Nikolaos D. Tselikas, Dimitrios K. Nasiopoulos,
- Abstract要約: 本研究では,多モーダル大規模言語モデル(LLM)と畳み込みニューラルネットワーク(CNN)を併用した葉のイメージを用いた植物病の自動分類の有効性について検討した。
ゼロショット,少数ショット,プログレッシブ微調整シナリオのモデル性能を評価する。
- 参考スコア(独自算出の注目度): 0.5009853409756729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automation in agriculture plays a vital role in addressing challenges related to crop monitoring and disease management, particularly through early detection systems. This study investigates the effectiveness of combining multimodal Large Language Models (LLMs), specifically GPT-4o, with Convolutional Neural Networks (CNNs) for automated plant disease classification using leaf imagery. Leveraging the PlantVillage dataset, we systematically evaluate model performance across zero-shot, few-shot, and progressive fine-tuning scenarios. A comparative analysis between GPT-4o and the widely used ResNet-50 model was conducted across three resolutions (100, 150, and 256 pixels) and two plant species (apple and corn). Results indicate that fine-tuned GPT-4o models achieved slightly better performance compared to the performance of ResNet-50, achieving up to 98.12% classification accuracy on apple leaf images, compared to 96.88% achieved by ResNet-50, with improved generalization and near-zero training loss. However, zero-shot performance of GPT-4o was significantly lower, underscoring the need for minimal training. Additional evaluations on cross-resolution and cross-plant generalization revealed the models' adaptability and limitations when applied to new domains. The findings highlight the promise of integrating multimodal LLMs into automated disease detection pipelines, enhancing the scalability and intelligence of precision agriculture systems while reducing the dependence on large, labeled datasets and high-resolution sensor infrastructure. Large Language Models, Vision Language Models, LLMs and CNNs, Disease Detection with Vision Language Models, VLMs
- Abstract(参考訳): 農業における自動化は、特に早期発見システムを通じて、作物のモニタリングや疾病管理に関わる課題に対処する上で重要な役割を担っている。
本研究では,多モード大言語モデル(LLMs),特にGPT-4oと畳み込みニューラルネットワーク(CNNs)を組み合わせた葉のイメージを用いた植物病の自動分類の有効性について検討した。
PlantVillageデータセットを活用することで、ゼロショット、少数ショット、プログレッシブな微調整シナリオにわたるモデルパフォーマンスを体系的に評価する。
GPT-4oと広く使用されているResNet-50モデルの比較分析を3つの解像度(100, 150, 256ピクセル)と2つの植物種(アップル, コーン)で行った。
その結果、細調整されたGPT-4oモデルは、ResNet-50の性能よりも若干性能が向上し、リンゴの葉のイメージの98.12%の分類精度が達成され、ResNet-50の96.88%に向上し、一般化とほぼゼロのトレーニング損失が改善した。
しかし、GPT-4oのゼロショット性能は大幅に低下し、最小限の訓練の必要性が強調された。
クロスレゾリューションとクロスプラントの一般化に関するさらなる評価は、新しい領域に適用した場合のモデルの適応性と制限を明らかにした。
この結果は、マルチモーダルLLMを自動疾患検出パイプラインに統合し、大規模ラベル付きデータセットと高解像度センサーインフラストラクチャへの依存を低減しつつ、精密農業システムのスケーラビリティと知性を向上させるという約束を強調している。
大規模言語モデル,視覚言語モデル,LLMおよびCNN,視覚言語モデルを用いた疾患検出,VLM
関連論文リスト
- FundusGAN: A Hierarchical Feature-Aware Generative Framework for High-Fidelity Fundus Image Generation [35.46876389599076]
FundusGANは、高忠実度ファンドス画像合成用に特別に設計された新しい階層的特徴認識生成フレームワークである。
我々は、FundusGANが複数のメトリクスにわたって最先端のメソッドを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-22T18:08:07Z) - Design and Implementation of FourCropNet: A CNN-Based System for Efficient Multi-Crop Disease Detection and Management [3.4161054453684705]
本研究では,複数の作物の病原体を検出するための新しいディープラーニングモデルであるFourCropNetを提案する。
FourCropNetは、Grapeの99.7%、Cornの99.5%、組み合わせたデータセットの95.3%の最高精度を達成した。
論文 参考訳(メタデータ) (2025-03-11T12:00:56Z) - Object Detection for Medical Image Analysis: Insights from the RT-DETR Model [40.593685087097995]
本稿では,RT-DETRモデルに基づく複雑な画像データ解析のための新しい検出フレームワークの適用について述べる。
RT-DETRモデルはTransformerベースのアーキテクチャ上に構築され,高次元かつ複雑な視覚データ処理に優れ,堅牢性と精度が向上した。
論文 参考訳(メタデータ) (2025-01-27T20:02:53Z) - Explainable AI-Enhanced Deep Learning for Pumpkin Leaf Disease Detection: A Comparative Analysis of CNN Architectures [1.472830326343432]
この研究は、2000枚の高解像度画像を5つのカテゴリに分けた「パンプキンリーフ病データセット」を用いている。
データセットは、モデルトレーニングの強力な表現を保証するために、いくつかの農業分野から厳格に組み立てられた。
我々は、DenseNet201、DenseNet121、DenseNet169、Xception、ResNet50、ResNet101、InceptionResNetV2を含む多くの熟練したディープラーニングアーキテクチャを調査し、ResNet50が90.5%の精度と同等の精度、リコール、F1-Scoreで最も効果的に実行されたことを観察した。
論文 参考訳(メタデータ) (2025-01-09T18:59:35Z) - Implementing Trust in Non-Small Cell Lung Cancer Diagnosis with a Conformalized Uncertainty-Aware AI Framework in Whole-Slide Images [37.3701890138561]
TRUECAMは、非小細胞肺癌におけるデータとモデル信頼性の両方を保証するために設計されたフレームワークである。
TRUECAMでラップされたAIモデルは、分類精度、堅牢性、解釈可能性、データ効率の点で、そのようなガイダンスが欠けているモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-12-28T02:22:47Z) - Comparative Analysis of Multi-Omics Integration Using Advanced Graph Neural Networks for Cancer Classification [40.45049709820343]
マルチオミクスデータ統合は、高次元性、データ複雑さ、および様々なオミクスタイプの異なる特徴により、大きな課題を生じさせる。
本研究では、グラフ畳み込みネットワーク(GCN)、グラフアテンションネットワーク(GAT)、グラフトランスフォーマーネットワーク(GTN)に基づくマルチオミクス(MO)統合のための3つのグラフニューラルネットワークアーキテクチャを評価する。
論文 参考訳(メタデータ) (2024-10-05T16:17:44Z) - Automated Disease Diagnosis in Pumpkin Plants Using Advanced CNN Models [0.0]
パンプキンは世界中で栽培される重要な作物であり、その生産力は特に発展途上国において食糧安全保障に不可欠である。
機械学習とディープラーニングの最近の進歩は、植物病検出の精度を自動化し改善するための有望なソリューションを提供する。
本稿では,カボチャ葉の病原体分類のための最先端の畳み込みニューラルネットワーク(CNN)モデルについて包括的解析を行った。
論文 参考訳(メタデータ) (2024-09-29T14:31:23Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness [102.06442250444618]
RLAIF-Vは,MLLMを完全なオープンソースパラダイムで整列させる新しいフレームワークである。
RLAIF-Vは、高品質なフィードバックデータ生成を含む2つの観点から、オープンソースのMLLMを最大限に探求する。
RLAIF-Vは、自動評価と人的評価の両方で6つのベンチマーク実験を行い、モデルの信頼性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Machine Learning-Based Jamun Leaf Disease Detection: A Comprehensive
Review [0.0]
ジャムン葉病は農業の生産性に重大な脅威をもたらす。
機械学習の出現は、これらの病気に効果的に取り組むための新たな道を開いた。
画像処理技術を用いた類似の疾患検出のために,様々な自動化システムが実装されている。
論文 参考訳(メタデータ) (2023-11-27T11:46:30Z) - Dual-Activated Lightweight Attention ResNet50 for Automatic Histopathology Breast Cancer Image Classification [0.0]
本研究では,乳がんの新たな分類法であるDual-Activated Lightweight Attention ResNet50モデルを提案する。
トレーニング済みのResNet50モデルと軽量なアテンション機構を統合し、ResNet50の第4層にアテンションモジュールを埋め込む。
DALAResNet50法は,40X,100X,200X,400Xの乳がん組織像を用いて,それぞれ98.5%,98.7%,97.9%,94.3%の検診を行った。
論文 参考訳(メタデータ) (2023-08-25T03:08:41Z) - Explainable vision transformer enabled convolutional neural network for
plant disease identification: PlantXViT [11.623005206620498]
植物病は世界の作物の損失の主な原因であり、世界経済に影響を及ぼす。
本研究では、植物病の同定のために、ビジョントランスフォーマーにより「PlantXViT」と呼ばれる畳み込みニューラルネットワークモデルが提案される。
提案したモデルは、わずか0.8万のトレーニング可能なパラメータを持つ軽量な構造であり、IoTベースのスマート農業サービスに適している。
論文 参考訳(メタデータ) (2022-07-16T12:05:06Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - RetiNerveNet: Using Recursive Deep Learning to Estimate Pointwise 24-2
Visual Field Data based on Retinal Structure [109.33721060718392]
緑内障は 世界でも 不可逆的な盲目の 主要な原因です 7000万人以上が 影響を受けています
The Standard Automated Perimetry (SAP) test's innate difficulty and its high test-retest variable, we propose the RetiNerveNet。
論文 参考訳(メタデータ) (2020-10-15T03:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。