論文の概要: Rethinking Plant Disease Diagnosis: Bridging the Academic-Practical Gap with Vision Transformers and Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2511.18989v1
- Date: Mon, 24 Nov 2025 11:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.171054
- Title: Rethinking Plant Disease Diagnosis: Bridging the Academic-Practical Gap with Vision Transformers and Zero-Shot Learning
- Title(参考訳): 植物病の診断を再考する:視覚変換とゼロショット学習による学術実践ギャップのブリッジ
- Authors: Wassim Benabbas, Mohammed Brahimi, Samir Akhrouf, Bilal Fortas,
- Abstract要約: 注意に基づくアーキテクチャとゼロショット学習アプローチが、キュレートされた学術データセットと現実世界の農業環境とのギャップを埋めるかどうかを検討する。
CNN(Convolutional Neural Networks)、ビジョントランスフォーマー(Vision Transformers)、およびCLIP(Contrastive Language- Image Pre-training)ベースのゼロショットモデルである。
- 参考スコア(独自算出の注目度): 2.3536628395905974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep learning have enabled significant progress in plant disease classification using leaf images. Much of the existing research in this field has relied on the PlantVillage dataset, which consists of well-centered plant images captured against uniform, uncluttered backgrounds. Although models trained on this dataset achieve high accuracy, they often fail to generalize to real-world field images, such as those submitted by farmers to plant diagnostic systems. This has created a significant gap between published studies and practical application requirements, highlighting the necessity of investigating and addressing this issue. In this study, we investigate whether attention-based architectures and zero-shot learning approaches can bridge the gap between curated academic datasets and real-world agricultural conditions in plant disease classification. We evaluate three model categories: Convolutional Neural Networks (CNNs), Vision Transformers, and Contrastive Language-Image Pre-training (CLIP)-based zero-shot models. While CNNs exhibit limited robustness under domain shift, Vision Transformers demonstrate stronger generalization by capturing global contextual features. Most notably, CLIP models classify diseases directly from natural language descriptions without any task-specific training, offering strong adaptability and interpretability. These findings highlight the potential of zero-shot learning as a practical and scalable domain adaptation strategy for plant health diagnosis in diverse field environments.
- Abstract(参考訳): 近年の深層学習の進歩は,葉のイメージを用いた植物病の分類に大きな進歩をもたらした。
この分野での既存の研究の多くは、均一で散らばった背景から捉えた、よく中心的な植物画像からなるPlantVillageデータセットに依存している。
このデータセットでトレーニングされたモデルは高い精度を達成するが、農家が植物診断システムに提出したような実世界の現場画像への一般化に失敗することが多い。
このことは、公表された研究と実践的なアプリケーション要件の間に大きなギャップを生じさせ、この問題の調査と対処の必要性を強調している。
本研究では,注目型アーキテクチャとゼロショット学習アプローチが,植物病分類における学習データセットと実環境の農業条件とのギャップを埋めるかどうかを検討する。
CNN(Convolutional Neural Networks)、ビジョントランスフォーマー(Vision Transformers)、およびCLIP(Contrastive Language- Image Pre-training)ベースのゼロショットモデルである。
CNNはドメインシフトの下では限られた堅牢性を示すが、Vision Transformersはグローバルなコンテキスト特徴をキャプチャすることでより強力な一般化を示す。
最も注目すべきは、CLIPモデルは、タスク固有のトレーニングなしで、自然言語記述から直接疾患を分類し、強い適応性と解釈性を提供する。
これらの知見は、多様な分野における植物健康診断のための実用的でスケーラブルなドメイン適応戦略としてのゼロショット学習の可能性を強調した。
関連論文リスト
- Toward Accessible Dermatology: Skin Lesion Classification Using Deep Learning Models on Mobile-Acquired Images [0.0]
本研究では,モバイル端末で取得した50以上の皮膚疾患カテゴリの大規模なデータセットをキュレートする。
我々は、複数の畳み込みニューラルネットワークとトランスフォーマーベースのアーキテクチャを評価する。
以上の結果からトランスフォーマーによる皮膚病変分類の可能性が示唆された。
論文 参考訳(メタデータ) (2025-09-05T04:31:16Z) - Automated Multi-Class Crop Pathology Classification via Convolutional Neural Networks: A Deep Learning Approach for Real-Time Precision Agriculture [0.0]
本研究では,コンボリューショナルニューラルネットワーク(CNN)を用いた画像分類システムを提案する。
このソリューションは、オープンソースでモバイル互換のプラットフォーム上にデプロイされ、リモートエリアの農家に対してリアルタイムの画像ベースの診断を可能にする。
論文 参考訳(メタデータ) (2025-07-12T18:45:50Z) - PixCell: A generative foundation model for digital histopathology images [49.00921097924924]
PixCellは,病理組織学における最初の拡散ベース生成基盤モデルである。
われわれはPanCan-30MでPixCellをトレーニングした。
論文 参考訳(メタデータ) (2025-06-05T15:14:32Z) - A Vision-Language Foundation Model for Leaf Disease Identification [0.0]
葉の病原性同定は、スマート農業において重要な役割を担っている。
既存の多くの研究は、互いの限界を補うために画像とテキストのモダリティを統合するのに依然として苦労している。
これらの課題に対処する文脈対応の視覚言語基盤モデルであるSCOLDを提案する。
論文 参考訳(メタデータ) (2025-05-11T15:30:06Z) - Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Semantic Image Segmentation with Deep Learning for Vine Leaf Phenotyping [59.0626764544669]
本研究では,ブドウの葉のイメージを意味的にセグメント化するためにDeep Learning法を用いて,葉の表現型自動検出システムを開発した。
私たちの研究は、成長や開発のような動的な特性を捉え定量化できる植物ライフサイクルのモニタリングに寄与します。
論文 参考訳(メタデータ) (2022-10-24T14:37:09Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - Self-Supervised Vision Transformers Learn Visual Concepts in
Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。
我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文 参考訳(メタデータ) (2022-03-01T16:14:41Z) - Deep Low-Shot Learning for Biological Image Classification and
Visualization from Limited Training Samples [52.549928980694695]
In situ hybridization (ISH) gene expression pattern image from the same developmental stage。
正確な段階のトレーニングデータをラベル付けするのは、生物学者にとっても非常に時間がかかる。
限られた訓練画像を用いてISH画像を正確に分類する2段階の低ショット学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T06:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。