論文の概要: Agri-CPJ: A Training-Free Explainable Framework for Agricultural Pest Diagnosis Using Caption-Prompt-Judge and LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2604.23701v1
- Date: Sun, 26 Apr 2026 13:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.507261
- Title: Agri-CPJ: A Training-Free Explainable Framework for Agricultural Pest Diagnosis Using Caption-Prompt-Judge and LLM-as-a-Judge
- Title(参考訳): Agri-CPJ:Caption-Prompt-Judge と LLM-as-a-Judge を用いた農業害虫診断のためのトレーニング不要な説明可能なフレームワーク
- Authors: Wentao Zhang, Qi Zhang, Mingkun Xu, Mu You, Henghua Shen, Zhongzhi He, Keyan Jin, Derek F. Wong, Tao Fang,
- Abstract要約: 本稿では,Agri-CPJ (Caption-Prompt-Judge)について述べる。
2つの候補応答は相補的な視点から生成され、LLM判定器はドメイン固有の基準に基づいてより強い応答を選択する。
CDDMBench では、GPT-5-Nano と GPT-5-mini 生成キャプションをペアリングすると、疾患分類では textbf+22.7 pp となり、QA では textbf+19.5 ポイントが非カプセルベースラインでスコアされる。
- 参考スコア(独自算出の注目度): 40.23111543895404
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Crop disease diagnosis from field photographs faces two recurring problems: models that score well on benchmarks frequently hallucinate species names, and when predictions are correct, the reasoning behind them is typically inaccessible to the practitioner. This paper describes Agri-CPJ (Caption-Prompt-Judge), a training-free few-shot framework in which a large vision-language model first generates a structured morphological caption, iteratively refined through multi-dimensional quality gating, before any diagnostic question is answered. Two candidate responses are then generated from complementary viewpoints, and an LLM judge selects the stronger one based on domain-specific criteria. Caption refinement is the component with the largest individual impact: ablations confirm that skipping it consistently degrades downstream accuracy across both models tested. On CDDMBench, pairing GPT-5-Nano with GPT-5-mini-generated captions yields \textbf{+22.7} pp in disease classification and \textbf{+19.5} points in QA score over no-caption baselines. Evaluated without modification on AgMMU-MCQs, GPT-5-Nano reached 77.84\% and Qwen-VL-Chat reached 64.54\%, placing them at or above most open-source models of comparable scale despite the format shift from open-ended to multiple-choice. The structured caption and judge rationale together constitute a readable audit trail: a practitioner who disagrees with a diagnosis can identify the specific caption observation that was incorrect. Code and data are publicly available https://github.com/CPJ-Agricultural/CPJ-Agricultural-Diagnosis
- Abstract(参考訳): フィールド写真からのクローン病の診断は、2つの繰り返し発生する問題に直面している: ベンチマークでよくスコアするモデルは、しばしば種名に幻覚を与え、予測が正しければ、それらの背後にある推論は、一般的に実践者にとってアクセスできない。
本稿では,大規模視覚言語モデルがまず,多次元品質ゲーティングによって反復的に洗練される構造的形態的キャプションを生成させる,学習自由な数ショットフレームワークであるAgri-CPJについて述べる。
2つの候補応答は相補的な視点から生成され、LLM判定器はドメイン固有の基準に基づいてより強い応答を選択する。
キャプションリファインメント(Caption refinement)は、最大の個人的影響を持つコンポーネントである。
CDDMBench では、GPT-5-Nano と GPT-5-mini 生成キャプションをペアリングすると、疾患分類における \textbf{+22.7} pp が生成し、QA の \textbf{+19.5} ポイントは、no-caption ベースラインを超える。
AgMMU-MCQの変更なしに評価され、GPT-5-Nanoは77.84 %に達し、Qwen-VL-Chatは64.54 %に達した。
構造化されたキャプションと判断の合理性は、読みやすい監査証跡を構成し、診断に同意しない実践者は、誤った特定のキャプション観察を特定できる。
Code and data are public available https://github.com/CPJ-Agricultural/CPJ-Agricultural-Diagnosis
関連論文リスト
- From Pixels to Explanations: Interpretable Diabetic Retinopathy Grading with CNN-Transformer Ensembles, Visual Explainability and Vision-Language Models [7.782282985072339]
本研究では,強い識別モデルとマルチモーダルな説明を組み合わせた方法論を提案する。
そこで我々はGrad-CAM++の視覚属性マップと短いテキスト論理式を作成した。
説明の質のために、Grad-CAM++は可塑性だが粗いローカライゼーションを提供し、VLMの合理性は概してグレード一貫性がある。
論文 参考訳(メタデータ) (2026-04-25T00:21:11Z) - Is There Knowledge Left to Extract? Evidence of Fragility in Medically Fine-Tuned Vision-Language Models [23.48481783960546]
我々は,4つの医用画像処理タスクに対して,オープンソースビジョン言語モデル(VLM)を4つ評価した。
その結果,タスクの難易度が増大するにつれて,パフォーマンスがほぼランダムなレベルに低下し,臨床上の理由が限定されることが判明した。
医療用VLMの性能は脆弱で、即時依存であり、ドメイン固有の微調整によって確実に改善されない。
論文 参考訳(メタデータ) (2026-04-10T19:14:03Z) - HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文 参考訳(メタデータ) (2026-01-24T10:31:21Z) - CPJ: Explainable Agricultural Pest Diagnosis via Caption-Prompt-Judge with LLM-Judged Refinement [17.863109076374727]
本稿では,Agri-Pest VQAを構造化,解釈可能な画像キャプションを通じて強化するフレームワークであるCaption--Prompt-Judge(CPJ)を提案する。
CPJは、LLM-as-Judgeモジュールを介して反復的に精製された多角キャプションを生成するために、大きな視覚言語モデルを採用している。
このフレームワークは、透明でエビデンスに基づく推論、堅牢で説明可能な農業診断を微調整なしで提供する。
論文 参考訳(メタデータ) (2025-12-31T16:21:31Z) - Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control [45.749134892112714]
セマンティクス駆動の病理画像生成フレームワークUniPathを紹介する。
UniPathは、Multi-Stream Control: a Raw-Text stream; a High-Level Semantics stream: a learnable query to a frozen pathology MLLM。
データ面では、2.65Mイメージテキストコーパスと、微調整で高品質な68Kサブセットをキュレートして、データの不足を軽減する。
実験によりUniPathのSOTA性能が実証され、Path-FIDは80.9(第2ベストより51%良い)で、セマンティックコントロールは98.7%の精度で実現された。
論文 参考訳(メタデータ) (2025-12-24T08:52:08Z) - MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - You only need 4 extra tokens: Synergistic Test-time Adaptation for LLMs [50.54173262572369]
大規模言語モデル (LLM) は、金融、医療、農業などの専門分野にますます導入されている。
本稿では,言語モデルに対するラベルフリーテスト時適応について検討し,追加の監督なしにモデルをオンザフライで適応する推論時フレームワークであるSyTTAについて述べる。
論文 参考訳(メタデータ) (2025-10-11T14:00:39Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Generating multiple-choice questions for medical question answering with
distractors and cue-masking [17.837685583005566]
医学的多重選択質問応答(MCQA)は特に困難である。
標準言語モデリングの事前訓練だけでは、最良の結果を得るには不十分です。
論文 参考訳(メタデータ) (2023-03-13T12:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。