論文の概要: Are vision-language models ready to zero-shot replace supervised classification models in agriculture?
- arxiv url: http://arxiv.org/abs/2512.15977v1
- Date: Wed, 17 Dec 2025 21:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.828551
- Title: Are vision-language models ready to zero-shot replace supervised classification models in agriculture?
- Title(参考訳): ビジョン言語モデルは、農業における教師付き分類モデルを置き換えることができるか?
- Authors: Earl Ranario, Mason J. Earles,
- Abstract要約: 視覚モデル(VLM)は、視覚認識タスクのための汎用的なソリューションとして提案されている。
我々は、AgMLコレクションから27の農業分類データセットに基づいて、多様なオープンおよびクローズドソースのVLMをベンチマークする。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly proposed as general-purpose solutions for visual recognition tasks, yet their reliability for agricultural decision support remains poorly understood. We benchmark a diverse set of open-source and closed-source VLMs on 27 agricultural classification datasets from the AgML collection, spanning 162 classes across plant disease, pest and damage, and plant and weed species identification. Across all tasks, zero-shot VLMs substantially underperform a supervised task-specific baseline (YOLO11), which consistently achieves markedly higher accuracy than any foundation model. Under multiple-choice prompting, the best-performing VLM (Gemini-3 Pro) reaches approximately 62% average accuracy, while open-ended prompting yields much lower performance, with raw accuracies typically below 25%. Applying LLM-based semantic judging increases open-ended accuracy (for example, from 21% to 30% for top models) and alters model rankings, demonstrating that evaluation methodology meaningfully affects reported conclusions. Among open-source models, Qwen-VL-72B performs best, approaching closed-source performance under constrained prompting but still trailing top proprietary systems. Task-level analysis shows that plant and weed species classification is consistently easier than pest and damage identification, which remains the most challenging category across models. Overall, these results indicate that current off-the-shelf VLMs are not yet suitable as standalone agricultural diagnostic systems, but can function as assistive components when paired with constrained interfaces, explicit label ontologies, and domain-aware evaluation strategies.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚認識タスクの汎用的ソリューションとしてますます提案されているが、農業意思決定支援に対する信頼性はいまだによく分かっていない。
我々は、AgMLコレクションから得られた27の農業分類データセットに基づいて、各種のオープンソースおよびクローズドソースVLMをベンチマークした。
全てのタスクにおいて、ゼロショットのVLMは教師付きタスク固有のベースライン(YOLO11)を著しく過小評価しており、どの基盤モデルよりもはるかに高い精度を実現している。
マルチチョイスプロンプトでは、最高の性能のVLM(Gemini-3 Pro)は平均62%に達し、オープンエンドプロンプトは、通常25%以下である。
LLMに基づく意味判断を適用することで、オープンエンドの精度(例えばトップモデルの21%から30%)が向上し、モデルランキングを変更し、評価手法が報告された結論に有意に影響を及ぼすことを示した。
オープンソースモデルの中では、Qwen-VL-72Bが最善を尽くし、制約付きプロンプトの下でクローズドソースのパフォーマンスに近づいている。
課題レベルの分析では、植物と雑草の種分類は害虫や害虫の識別よりも一貫して容易であり、モデル全体でも最も困難なカテゴリーである。
これらの結果から,現在の市販VLMは独立した農業診断システムとしてはまだ適していないが,制約されたインターフェース,明示的なラベルオントロジー,ドメイン認識評価戦略と組み合わせて補助的コンポーネントとして機能することが示唆された。
関連論文リスト
- Weed Detection in Challenging Field Conditions: A Semi-Supervised Framework for Overcoming Shadow Bias and Data Scarcity [7.019137213828947]
本研究は、診断駆動型半教師付きフレームワークにより、両方の問題に取り組む。
我々は、サトウキビのギニアグラスのラベル付き画像に約975枚と1万枚をラベル付けしたユニークなデータセットを使用します。
我々の研究は、堅牢なコンピュータビジョンシステムの開発、診断、改善のための明確でフィールドテストされたフレームワークを提供する。
論文 参考訳(メタデータ) (2025-08-27T01:55:47Z) - Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。
近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。
本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文 参考訳(メタデータ) (2025-08-07T16:27:37Z) - Self-Consistency in Vision-Language Models for Precision Agriculture: Multi-Response Consensus for Crop Disease Management [0.0]
本研究は,プロンプトベースのエキスパート評価と自己整合性機構を組み合わせた,農業用画像処理のためのドメイン認識フレームワークを提案する。
本稿では,(1)画像解析出力のスケーラブルな評価のために,言語モデルを専門植物病理学者として構成するプロンプトベース評価プロトコル,(2)農業画像から複数の候補応答を生成するコサイン一貫性自己投票機構を紹介する。
診断精度は82.2%から87.8%,症状分析38.9%から52.2%,治療推奨27.8%から43.3に改善した。
論文 参考訳(メタデータ) (2025-07-08T18:32:21Z) - Plant Disease Detection through Multimodal Large Language Models and Convolutional Neural Networks [0.5009853409756729]
本研究では,多モーダル大規模言語モデル(LLM)と畳み込みニューラルネットワーク(CNN)を併用した葉のイメージを用いた植物病の自動分類の有効性について検討した。
ゼロショット,少数ショット,プログレッシブ微調整シナリオのモデル性能を評価する。
論文 参考訳(メタデータ) (2025-04-29T04:31:58Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Leveraging Vision Language Models for Specialized Agricultural Tasks [19.7240633020344]
本稿では,植物ストレス表現におけるビジョン言語モデルの能力を評価するためのベンチマークであるAgEvalを紹介する。
本研究は,ドメイン固有のタスクに対して汎用的なVLMをどのように活用できるかを,いくつかの注釈付き例で検討する。
以上の結果から,VLMの特殊タスクへの適応性は,F1スコアが46.24%から73.37%に向上した。
論文 参考訳(メタデータ) (2024-07-29T00:39:51Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。