論文の概要: Self-Consistency in Vision-Language Models for Precision Agriculture: Multi-Response Consensus for Crop Disease Management
- arxiv url: http://arxiv.org/abs/2507.08024v1
- Date: Tue, 08 Jul 2025 18:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.101201
- Title: Self-Consistency in Vision-Language Models for Precision Agriculture: Multi-Response Consensus for Crop Disease Management
- Title(参考訳): 精密農業のためのビジョンランゲージモデルにおける自己整合性:作物病管理のためのマルチレスポンスコンセンサス
- Authors: Mihir Gupta, Abhay Mangla, Ross Greer, Pratik Desai,
- Abstract要約: 本研究は,プロンプトベースのエキスパート評価と自己整合性機構を組み合わせた,農業用画像処理のためのドメイン認識フレームワークを提案する。
本稿では,(1)画像解析出力のスケーラブルな評価のために,言語モデルを専門植物病理学者として構成するプロンプトベース評価プロトコル,(2)農業画像から複数の候補応答を生成するコサイン一貫性自己投票機構を紹介する。
診断精度は82.2%から87.8%,症状分析38.9%から52.2%,治療推奨27.8%から43.3に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precision agriculture relies heavily on accurate image analysis for crop disease identification and treatment recommendation, yet existing vision-language models (VLMs) often underperform in specialized agricultural domains. This work presents a domain-aware framework for agricultural image processing that combines prompt-based expert evaluation with self-consistency mechanisms to enhance VLM reliability in precision agriculture applications. We introduce two key innovations: (1) a prompt-based evaluation protocol that configures a language model as an expert plant pathologist for scalable assessment of image analysis outputs, and (2) a cosine-consistency self-voting mechanism that generates multiple candidate responses from agricultural images and selects the most semantically coherent diagnosis using domain-adapted embeddings. Applied to maize leaf disease identification from field images using a fine-tuned PaliGemma model, our approach improves diagnostic accuracy from 82.2\% to 87.8\%, symptom analysis from 38.9\% to 52.2\%, and treatment recommendation from 27.8\% to 43.3\% compared to standard greedy decoding. The system remains compact enough for deployment on mobile devices, supporting real-time agricultural decision-making in resource-constrained environments. These results demonstrate significant potential for AI-driven precision agriculture tools that can operate reliably in diverse field conditions.
- Abstract(参考訳): 精密農業は、作物病の特定と治療の推奨のための正確な画像解析に大きく依存しているが、既存の視覚言語モデル(VLM)は、しばしば特定の農業領域では性能が劣っている。
本研究は,精密農業分野におけるVLMの信頼性を高めるために,プロンプトベースのエキスパート評価と自己整合性メカニズムを組み合わせた農業画像処理のためのドメイン認識フレームワークを提案する。
本稿では,(1)画像解析出力のスケーラブルな評価のために言語モデルを専門的植物病理学者として構成するプロンプトベース評価プロトコル,(2)農業画像から複数の候補応答を生成し,ドメイン適応埋め込みを用いた最も意味論的に一貫性のある診断を選択するコサイン一貫性自己投票機構を紹介する。
微調整のPaliGemmaモデルを用いて葉の病原性同定を行い, 診断精度は82.2\%から87.8\%に改善し, 症状解析は38.9\%から52.2\%に改善し, 治療勧告は27.8\%から43.3\%に改善した。
このシステムはモバイル機器への展開に十分コンパクトであり、資源制約のある環境でリアルタイムの農業意思決定をサポートする。
これらの結果は、多種多様なフィールド条件下で確実に動作可能なAI駆動の精密農業ツールに有意な可能性を示唆している。
関連論文リスト
- Automated Multi-Class Crop Pathology Classification via Convolutional Neural Networks: A Deep Learning Approach for Real-Time Precision Agriculture [0.0]
本研究では,コンボリューショナルニューラルネットワーク(CNN)を用いた画像分類システムを提案する。
このソリューションは、オープンソースでモバイル互換のプラットフォーム上にデプロイされ、リモートエリアの農家に対してリアルタイムの画像ベースの診断を可能にする。
論文 参考訳(メタデータ) (2025-07-12T18:45:50Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - Design and Implementation of FourCropNet: A CNN-Based System for Efficient Multi-Crop Disease Detection and Management [3.4161054453684705]
本研究では,複数の作物の病原体を検出するための新しいディープラーニングモデルであるFourCropNetを提案する。
FourCropNetは、Grapeの99.7%、Cornの99.5%、組み合わせたデータセットの95.3%の最高精度を達成した。
論文 参考訳(メタデータ) (2025-03-11T12:00:56Z) - A Multimodal Benchmark Dataset and Model for Crop Disease Diagnosis [5.006697347461899]
本稿では,農学研究の分野を開拓するための先駆的資源である作物病領域マルチモーダルデータセットについて紹介する。
このデータセットは、さまざまな作物の病気の画像13万7000枚と、幅広い農業知識にまたがる100万の質問と回答のペアで構成されている。
我々は,最先端のマルチモーダルモデルを微調整し,作物病診断の大幅な改善を示すことにより,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2025-03-10T06:37:42Z) - VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。
元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。
このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-01-29T16:02:16Z) - Generating Diverse Agricultural Data for Vision-Based Farming Applications [74.79409721178489]
このモデルは, 植物の成長段階, 土壌条件の多様性, 照明条件の異なるランダム化フィールド配置をシミュレートすることができる。
我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。
論文 参考訳(メタデータ) (2024-03-27T08:42:47Z) - Crop Disease Classification using Support Vector Machines with Green
Chromatic Coordinate (GCC) and Attention based feature extraction for IoT
based Smart Agricultural Applications [0.0]
植物病は農業栽培中の葉に悪影響を及ぼし、作物の生産量と経済的価値に大きな損失をもたらす。
各種機械学習(ML)と深層学習(DL)アルゴリズムが開発され,植物病の検出のための研究が行われている。
本稿では、注意に基づく特徴抽出、RGBチャネルに基づく色分析、SVM(Support Vector Machines)による性能向上による事前作業に基づく新しい分類手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T10:44:49Z) - Generative AI in Agriculture: Creating Image Datasets Using DALL.E's Advanced Large Language Model Capabilities [0.4143603294943439]
テキスト・ツー・イメージと画像・ツー・イメージ(変分)の両手法を用いた研究
画像対画像生成は、テキスト対画像法よりも平均PSNRが5.78%増加し、画像の明瞭度と品質が向上した。
また,画像から画像までの手法を用いて生成した画像は,テキストから画像へのアプローチで生成した画像よりも現実的であった。
論文 参考訳(メタデータ) (2023-07-17T19:17:10Z) - Domain Generalization for Crop Segmentation with Standardized Ensemble Knowledge Distillation [42.39035033967183]
サービスロボットは、周囲を理解し、野生のターゲットを識別するリアルタイム認識システムが必要です。
しかし、既存の方法はしばしば、新しい作物や環境条件への一般化において不足している。
本稿では,知識蒸留を用いた領域一般化手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T14:28:29Z) - End-to-end deep learning for directly estimating grape yield from
ground-based imagery [53.086864957064876]
本研究は, ブドウ畑の収量推定に深層学習と併用した近位画像の応用を実証する。
オブジェクト検出、CNN回帰、トランスフォーマーモデルという3つのモデルアーキテクチャがテストされた。
本研究は,ブドウの収量予測における近位画像と深層学習の適用性を示した。
論文 参考訳(メタデータ) (2022-08-04T01:34:46Z) - Unsupervised deep learning techniques for powdery mildew recognition
based on multispectral imaging [63.62764375279861]
本稿では,キュウリ葉の粉状ミドウを自動的に認識する深層学習手法を提案する。
マルチスペクトルイメージングデータに適用した教師なし深層学習技術に焦点をあてる。
本稿では, オートエンコーダアーキテクチャを用いて, 疾患検出のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-12-20T13:29:13Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z) - Estimating Crop Primary Productivity with Sentinel-2 and Landsat 8 using
Machine Learning Methods Trained with Radiative Transfer Simulations [58.17039841385472]
我々は,機械モデリングと衛星データ利用の並列化を活用し,作物生産性の高度モニタリングを行う。
本モデルでは, 地域情報を使用しなくても, 各種C3作物の種類, 環境条件の総合的生産性を推定することに成功した。
これは、現在の地球観測クラウドコンピューティングプラットフォームの助けを借りて、新しい衛星センサーから作物の生産性をグローバルにマップする可能性を強調しています。
論文 参考訳(メタデータ) (2020-12-07T16:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。