論文の概要: Agro-Consensus: Semantic Self-Consistency in Vision-Language Models for Crop Disease Management in Developing Countries
- arxiv url: http://arxiv.org/abs/2510.21757v1
- Date: Sat, 11 Oct 2025 19:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.950563
- Title: Agro-Consensus: Semantic Self-Consistency in Vision-Language Models for Crop Disease Management in Developing Countries
- Title(参考訳): Agro-Consensus:発展途上国における作物病管理のためのビジョンランゲージモデルにおける意味的自己整合性
- Authors: Mihir Gupta, Pratik Desai, Ross Greer,
- Abstract要約: 発展途上国の農業病管理は、専門家の植物病理学者に限られているため、重大な課題に直面している。
本研究は,農業用画像キャプションにおける視覚言語モデル(VLM)の信頼性向上を目的とした,費用対効果の高い自己整合性フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.2727733134290813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agricultural disease management in developing countries such as India, Kenya, and Nigeria faces significant challenges due to limited access to expert plant pathologists, unreliable internet connectivity, and cost constraints that hinder the deployment of large-scale AI systems. This work introduces a cost-effective self-consistency framework to improve vision-language model (VLM) reliability for agricultural image captioning. The proposed method employs semantic clustering, using a lightweight (80MB) pre-trained embedding model to group multiple candidate responses. It then selects the most coherent caption -- containing a diagnosis, symptoms, analysis, treatment, and prevention recommendations -- through a cosine similarity-based consensus. A practical human-in-the-loop (HITL) component is incorporated, wherein user confirmation of the crop type filters erroneous generations, ensuring higher-quality input for the consensus mechanism. Applied to the publicly available PlantVillage dataset using a fine-tuned 3B-parameter PaliGemma model, our framework demonstrates improvements over standard decoding methods. Evaluated on 800 crop disease images with up to 21 generations per image, our single-cluster consensus method achieves a peak accuracy of 83.1% with 10 candidate generations, compared to the 77.5% baseline accuracy of greedy decoding. The framework's effectiveness is further demonstrated when considering multiple clusters; accuracy rises to 94.0% when a correct response is found within any of the top four candidate clusters, outperforming the 88.5% achieved by a top-4 selection from the baseline.
- Abstract(参考訳): インド、ケニア、ナイジェリアなどの先進国における農業病の管理は、専門家の植物病理学者へのアクセス制限、信頼性の低いインターネット接続、大規模AIシステムの展開を妨げるコスト制限など、重大な課題に直面している。
本研究は,農業用画像キャプションにおける視覚言語モデル(VLM)の信頼性向上を目的とした,費用対効果の高い自己整合性フレームワークを提案する。
提案手法は, 軽量(80MB)の事前学習型埋め込みモデルを用いて, セマンティッククラスタリングを用いる。
次に、コサインの類似性に基づくコンセンサスを通じて、診断、症状、分析、治療、予防の勧告を含む最も一貫性のあるキャプションを選択する。
実用的なHuman-in-the-loop(HITL)コンポーネントが組み込まれており、作物型フィルタのユーザが誤世代を確認でき、コンセンサス機構の高品質な入力が保証される。
微調整3BパラメータPaliGemmaモデルを用いて,一般公開のPlantVillageデータセットに適用し,標準復号法よりも優れた性能を示す。
画像当たり最大21世代で800個の作物病画像から評価し, 最大83.1%のピーク精度を10世代で達成し, グリーディ復号の77.5%の基準精度と比較した。
このフレームワークの有効性は、複数のクラスタを考慮するとさらに証明される; 精度は、上位4つの候補クラスタのいずれかで正しい応答が見つかったときに94.0%まで上昇し、ベースラインからトップ4の選択によって達成された88.5%を上回っている。
関連論文リスト
- Weed Detection in Challenging Field Conditions: A Semi-Supervised Framework for Overcoming Shadow Bias and Data Scarcity [7.019137213828947]
本研究は、診断駆動型半教師付きフレームワークにより、両方の問題に取り組む。
我々は、サトウキビのギニアグラスのラベル付き画像に約975枚と1万枚をラベル付けしたユニークなデータセットを使用します。
我々の研究は、堅牢なコンピュータビジョンシステムの開発、診断、改善のための明確でフィールドテストされたフレームワークを提供する。
論文 参考訳(メタデータ) (2025-08-27T01:55:47Z) - Self-Consistency in Vision-Language Models for Precision Agriculture: Multi-Response Consensus for Crop Disease Management [0.0]
本研究は,プロンプトベースのエキスパート評価と自己整合性機構を組み合わせた,農業用画像処理のためのドメイン認識フレームワークを提案する。
本稿では,(1)画像解析出力のスケーラブルな評価のために,言語モデルを専門植物病理学者として構成するプロンプトベース評価プロトコル,(2)農業画像から複数の候補応答を生成するコサイン一貫性自己投票機構を紹介する。
診断精度は82.2%から87.8%,症状分析38.9%から52.2%,治療推奨27.8%から43.3に改善した。
論文 参考訳(メタデータ) (2025-07-08T18:32:21Z) - DeepSeqCoco: A Robust Mobile Friendly Deep Learning Model for Detection of Diseases in Cocos nucifera [0.0]
ココナッツの木病は、特に発展途上国において、農業生産にとって深刻なリスクである。
DeepSeqCocoは、ココナッツツリーイメージからの正確かつ自動的な疾患識別のためのディープラーニングベースのモデルである。
論文 参考訳(メタデータ) (2025-05-15T07:25:43Z) - A Clinician-Friendly Platform for Ophthalmic Image Analysis Without Technical Barriers [51.45596445363302]
GlobeReadyはクリニックフレンドリーなAIプラットフォームで、再トレーニング、微調整、技術専門知識の必要性なしに、基礎疾患の診断を可能にする。
光コヒーレンス・トモグラフィー(OCT)スキャンを用いて、カラー・ファンドス写真(CPF)を用いた11のファンドス病(93.9-98.5%)と15のファンドス病(87.2-92.7%)の精度を示した。
トレーニングなしのローカル機能拡張を活用することで、GlobeReadyプラットフォームは、センターや人口間のドメインシフトを効果的に軽減する。
論文 参考訳(メタデータ) (2025-04-22T14:17:22Z) - Design and Implementation of FourCropNet: A CNN-Based System for Efficient Multi-Crop Disease Detection and Management [3.4161054453684705]
本研究では,複数の作物の病原体を検出するための新しいディープラーニングモデルであるFourCropNetを提案する。
FourCropNetは、Grapeの99.7%、Cornの99.5%、組み合わせたデータセットの95.3%の最高精度を達成した。
論文 参考訳(メタデータ) (2025-03-11T12:00:56Z) - A Knowledge-enhanced Pathology Vision-language Foundation Model for Cancer Diagnosis [58.85247337449624]
本稿では,疾患知識を階層型セマンティックグループ内のアライメントに組み込む知識強化型視覚言語事前学習手法を提案する。
KEEPはゼロショット癌診断タスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-17T17:45:21Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - AIGIQA-20K: A Large Database for AI-Generated Image Quality Assessment [54.93996119324928]
AIGIQA-20Kとして知られる2万のAIGIと420,000の主観評価を備えた、これまでで最大のAIGI主観的品質データベースを作成します。
このデータベース上でベンチマーク実験を行い、16の主流AIGI品質モデルと人間の知覚との対応性を評価する。
論文 参考訳(メタデータ) (2024-04-04T12:12:24Z) - Group-Conditional Conformal Prediction via Quantile Regression
Calibration for Crop and Weed Classification [0.0]
本稿では,ブラックボックス予測装置の予測性能について,統計的に妥当な保証を提供する共形予測フレームワークを提案する。
このフレームワークは、実践的な側面と、Adaptive Prediction Sets (APS) アプローチに沿った特別な注意を払って公開されている。
この欠点に対処するため、群-条件共形アプローチが提示される。
論文 参考訳(メタデータ) (2023-08-29T08:02:41Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。