論文の概要: LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases
- arxiv url: http://arxiv.org/abs/2602.13662v2
- Date: Tue, 17 Feb 2026 16:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 13:57:33.619158
- Title: LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases
- Title(参考訳): LeafNet: 植物病の視覚・言語理解のための大規模データセットと総合ベンチマーク
- Authors: Khang Nguyen Quoc, Phuong D. Dao, Luyl-Da Quach,
- Abstract要約: LeafBenchは、植物病の理解におけるビジョン・ランゲージ・モデル(VLM)の機能を評価するために開発された視覚的質問応答ベンチマークである。
このデータセットは、97の病気のクラスにまたがる186,000の葉のデジタルイメージとメタデータを組み合わせ、13,950の質問応答ペアを生成する。
LeafBenchデータセット上で12の最先端のVLMをベンチマークした結果,その疾患理解能力の相違が明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models and vision-language pre-training have significantly advanced Vision-Language Models (VLMs), enabling multimodal processing of visual and linguistic data. However, their application in domain-specific agricultural tasks, such as plant pathology, remains limited due to the lack of large-scale, comprehensive multimodal image--text datasets and benchmarks. To address this gap, we introduce LeafNet, a comprehensive multimodal dataset, and LeafBench, a visual question-answering benchmark developed to systematically evaluate the capabilities of VLMs in understanding plant diseases. The dataset comprises 186,000 leaf digital images spanning 97 disease classes, paired with metadata, generating 13,950 question-answer pairs spanning six critical agricultural tasks. The questions assess various aspects of plant pathology understanding, including visual symptom recognition, taxonomic relationships, and diagnostic reasoning. Benchmarking 12 state-of-the-art VLMs on our LeafBench dataset, we reveal substantial disparity in their disease understanding capabilities. Our study shows performance varies markedly across tasks: binary healthy--diseased classification exceeds 90\% accuracy, while fine-grained pathogen and species identification remains below 65\%. Direct comparison between vision-only models and VLMs demonstrates the critical advantage of multimodal architectures: fine-tuned VLMs outperform traditional vision models, confirming that integrating linguistic representations significantly enhances diagnostic precision. These findings highlight critical gaps in current VLMs for plant pathology applications and underscore the need for LeafBench as a rigorous framework for methodological advancement and progress evaluation toward reliable AI-assisted plant disease diagnosis. Code is available at https://github.com/EnalisUs/LeafBench.
- Abstract(参考訳): 基礎モデルと視覚言語事前学習は、視覚および言語データのマルチモーダル処理を可能にする視覚言語モデル(VLM)を著しく進歩させた。
しかし、植物病理学のようなドメイン固有の農業タスクへの応用は、大規模で包括的なマルチモーダル画像-テキストデータセットとベンチマークが欠如しているため、依然として制限されている。
このギャップに対処するために,総合的なマルチモーダルデータセットであるLeafNetと,植物病の理解におけるVLMの能力を体系的に評価するために開発された視覚的質問応答ベンチマークであるLeafBenchを紹介する。
このデータセットは、97の病気クラスにまたがる186,000の葉のデジタル画像とメタデータを組み合わせ、6つの重要な農業タスクにまたがる13,950の質問回答ペアを生成する。
これらの質問は、視覚症状認識、分類学的関係、診断的推論など、植物病理学的理解の様々な側面を評価する。
LeafBenchデータセット上で12の最先端のVLMをベンチマークした結果,その疾患理解能力の相違が明らかとなった。
正常な二分分類は90%以上であり, 細粒度の病原体や種同定は65%以下である。
微調整されたVLMは従来の視覚モデルよりも優れており、言語表現の統合は診断精度を大幅に向上させる。
これらの知見は、植物病理学への応用における現在のVLMの重大なギャップを浮き彫りにして、信頼できるAI支援植物病診断に向けた方法論的進展と進展評価のための厳密な枠組みとしてのLeafBenchの必要性を浮き彫りにしている。
コードはhttps://github.com/EnalisUs/LeafBench.comで入手できる。
関連論文リスト
- A Lightweight and Explainable Vision-Language Framework for Crop Disease Visual Question Answering [0.2624902795082451]
本研究は,葉のイメージから作物や病気を識別する軽量な視覚言語フレームワークを提案する。
視覚表現学習とクロスモーダルアライメントを改善するために、2段階のトレーニング戦略が採用されている。
実験の結果,作物の同定と病原体同定の精度が高かった。
論文 参考訳(メタデータ) (2026-01-08T17:31:09Z) - Evaluating the Diagnostic Classification Ability of Multimodal Large Language Models: Insights from the Osteoarthritis Initiative [14.002322217782364]
マルチモーダル大言語モデル(MLLM)は,医療視覚的質問応答(VQA)とレポート生成において有望な性能を示す。
膝関節症(OA)分類におけるMLLMアーキテクチャの検討を行った。
論文 参考訳(メタデータ) (2026-01-05T13:31:44Z) - Rethinking Plant Disease Diagnosis: Bridging the Academic-Practical Gap with Vision Transformers and Zero-Shot Learning [2.3536628395905974]
注意に基づくアーキテクチャとゼロショット学習アプローチが、キュレートされた学術データセットと現実世界の農業環境とのギャップを埋めるかどうかを検討する。
CNN(Convolutional Neural Networks)、ビジョントランスフォーマー(Vision Transformers)、およびCLIP(Contrastive Language- Image Pre-training)ベースのゼロショットモデルである。
論文 参考訳(メタデータ) (2025-11-24T11:08:01Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - A Vision-Language Foundation Model for Leaf Disease Identification [0.0]
葉の病原性同定は、スマート農業において重要な役割を担っている。
既存の多くの研究は、互いの限界を補うために画像とテキストのモダリティを統合するのに依然として苦労している。
これらの課題に対処する文脈対応の視覚言語基盤モデルであるSCOLDを提案する。
論文 参考訳(メタデータ) (2025-05-11T15:30:06Z) - Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis [0.1984949535188529]
ビジョン言語モデル(VLM)は、画像処理のための事前訓練されたビジョンバックボーンと、クロスモーダルプロジェクタを組み込むことによって、この問題に対処する。
低線量放射線治療におけるマルチモーダル理解を高めるため,LLaVAモデルから微調整されたインテリジェントアシスタントを開発した。
論文 参考訳(メタデータ) (2025-01-26T02:48:01Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。