論文の概要: CPJ: Explainable Agricultural Pest Diagnosis via Caption-Prompt-Judge with LLM-Judged Refinement
- arxiv url: http://arxiv.org/abs/2512.24947v1
- Date: Wed, 31 Dec 2025 16:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.702381
- Title: CPJ: Explainable Agricultural Pest Diagnosis via Caption-Prompt-Judge with LLM-Judged Refinement
- Title(参考訳): CPJ: LLM-Judged Refinement を用いたキャプション・プロンプト・ジャッジによる農業害虫診断
- Authors: Wentao Zhang, Tao Fang, Lina Lu, Lifei Wang, Weihe Zhong,
- Abstract要約: 本稿では,Agri-Pest VQAを構造化,解釈可能な画像キャプションを通じて強化するフレームワークであるCaption--Prompt-Judge(CPJ)を提案する。
CPJは、LLM-as-Judgeモジュールを介して反復的に精製された多角キャプションを生成するために、大きな視覚言語モデルを採用している。
このフレームワークは、透明でエビデンスに基づく推論、堅牢で説明可能な農業診断を微調整なしで提供する。
- 参考スコア(独自算出の注目度): 17.863109076374727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate and interpretable crop disease diagnosis is essential for agricultural decision-making, yet existing methods often rely on costly supervised fine-tuning and perform poorly under domain shifts. We propose Caption--Prompt--Judge (CPJ), a training-free few-shot framework that enhances Agri-Pest VQA through structured, interpretable image captions. CPJ employs large vision-language models to generate multi-angle captions, refined iteratively via an LLM-as-Judge module, which then inform a dual-answer VQA process for both recognition and management responses. Evaluated on CDDMBench, CPJ significantly improves performance: using GPT-5-mini captions, GPT-5-Nano achieves \textbf{+22.7} pp in disease classification and \textbf{+19.5} points in QA score over no-caption baselines. The framework provides transparent, evidence-based reasoning, advancing robust and explainable agricultural diagnosis without fine-tuning. Our code and data are publicly available at: https://github.com/CPJ-Agricultural/CPJ-Agricultural-Diagnosis.
- Abstract(参考訳): 作物病の正確な診断は、農業の意思決定には不可欠であるが、既存の手法は、高価に監督された微調整に頼り、ドメインシフトの下では不十分である。
本稿では,Agri-Pest VQAを構造化・解釈可能な画像キャプションを通じて強化する訓練不要な小ショットフレームワークであるCaption--Prompt-Judge (CPJ)を提案する。
CPJは多角キャプションを生成するために大きな視覚言語モデルを使用し、LLM-as-Judgeモジュールを介して反復的に精製し、認識と管理の両方の応答に対して二重回答VQAプロセスに通知する。
CDDMBenchでの評価では、CPJはGPT-5-miniキャプションを使用し、GPT-5-Nano は疾患分類における \textbf{+22.7} pp を達成し、QA スコアにおける \textbf{+19.5} ポイントは、no-caption baseline よりも大幅に向上する。
このフレームワークは、透明でエビデンスに基づく推論、堅牢で説明可能な農業診断を微調整なしで提供する。
私たちのコードとデータは、https://github.com/CPJ-Agricultural/CPJ-Agricultural-Diagnosisで公開されています。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Adaptive Diagnostic Reasoning Framework for Pathology with Multimodal Large Language Models [34.28963665009494]
本稿では,自己学習パラダイムを確立するための解釈可能なフレームワークRECAP-PATHを提案する。
既成のマルチモーダルな大規模言語モデルから、受動的パターン認識からエビデンスにリンクされた診断推論へと移行する。
この自己学習アプローチでは、小さなラベル付きセットのみを必要とし、がん診断を生成するためのホワイトボックスアクセスやウェイト更新は不要である。
論文 参考訳(メタデータ) (2025-11-15T03:06:59Z) - Agro-Consensus: Semantic Self-Consistency in Vision-Language Models for Crop Disease Management in Developing Countries [2.2727733134290813]
発展途上国の農業病管理は、専門家の植物病理学者に限られているため、重大な課題に直面している。
本研究は,農業用画像キャプションにおける視覚言語モデル(VLM)の信頼性向上を目的とした,費用対効果の高い自己整合性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-11T19:41:07Z) - CANDLE: A Cross-Modal Agentic Knowledge Distillation Framework for Interpretable Sarcopenia Diagnosis [3.0245458192729466]
CANDLEは、解釈可能性と性能のトレードオフを緩和し、予測精度を高め、高い決定一貫性を維持する。
このフレームワークは、TMLモデルの知識アセット化に対するスケーラブルなアプローチを提供し、サルコピアおよび潜在的に広い医療領域における解釈可能、再現可能、および臨床的に整合した意思決定支援を可能にする。
論文 参考訳(メタデータ) (2025-07-26T15:50:08Z) - Self-Consistency in Vision-Language Models for Precision Agriculture: Multi-Response Consensus for Crop Disease Management [0.0]
本研究は,プロンプトベースのエキスパート評価と自己整合性機構を組み合わせた,農業用画像処理のためのドメイン認識フレームワークを提案する。
本稿では,(1)画像解析出力のスケーラブルな評価のために,言語モデルを専門植物病理学者として構成するプロンプトベース評価プロトコル,(2)農業画像から複数の候補応答を生成するコサイン一貫性自己投票機構を紹介する。
診断精度は82.2%から87.8%,症状分析38.9%から52.2%,治療推奨27.8%から43.3に改善した。
論文 参考訳(メタデータ) (2025-07-08T18:32:21Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。