論文の概要: Thinking Like a Botanist: Challenging Multimodal Language Models with Intent-Driven Chain-of-Inquiry
- arxiv url: http://arxiv.org/abs/2604.20983v1
- Date: Wed, 22 Apr 2026 18:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.122585
- Title: Thinking Like a Botanist: Challenging Multimodal Language Models with Intent-Driven Chain-of-Inquiry
- Title(参考訳): ボタニストのように考える - インテント駆動型問合せによるマルチモーダル言語モデルの構築
- Authors: Syed Nazmus Sakib, Nafiul Haque, Shahrear Bin Amin, Hasan Muhammad Abdullah, Md. Mehedi Hasan, Mohammad Zabed Hossain, Shifat E. Arman,
- Abstract要約: 植物診断における多段階的意図駆動型視覚推論のベンチマークであるPlanetInquiryVQAを紹介する。
24,950名の植物画像と138,068組の質問応答対に,視覚的接地,重度ラベル,ドメイン固有の推論テンプレートを付加したデータセットを作成した。
- 参考スコア(独自算出の注目度): 0.2679229955279794
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision evaluations are typically done through multi-step processes. In most contemporary fields, experts analyze images using structured, evidence-based adaptive questioning. In plant pathology, botanists inspect leaf images, identify visual cues, infer diagnostic intent, and probe further with targeted questions that adapt to species, symptoms, and severity. This structured probing is crucial for accurate disease diagnosis and treatment formulation. Yet current vision-language models are evaluated on single-turn question answering. To address this gap, we introduce PlantInquiryVQA, a benchmark for studying multi-step, intent-driven visual reasoning in botanical diagnosis. We formalize a Chain of Inquiry framework modeling diagnostic trajectories as ordered question-answer sequences conditioned on grounded visual cues and explicit epistemic intent. We release a dataset of 24,950 expert-curated plant images and 138,068 question-answer pairs annotated with visual grounding, severity labels, and domain-specific reasoning templates. Evaluations on top-tier Multimodal Large Language Models reveal that while they describe visual symptoms adequately, they struggle with safe clinical reasoning and accurate diagnosis. Importantly, structured question-guided inquiry significantly improves diagnostic correctness, reduces hallucination, and increases reasoning efficiency. We hope PlantInquiryVQA serves as a foundational benchmark in advancing research to train diagnostic agents to reason like expert botanists rather than static classifiers.
- Abstract(参考訳): 視覚評価は通常、多段階プロセスによって行われる。
現代のほとんどの分野において、専門家は構造化された証拠に基づく適応的質問を用いて画像を分析する。
植物病理学において、植物学者は葉のイメージを検査し、視覚的手がかりを特定し、診断意図を推測し、種、症状、重症度に適応する対象の質問を更に調査する。
この構造的プローブは、正確な疾患診断と治療の定式化に不可欠である。
しかし、現在の視覚言語モデルは、単ターン質問応答に基づいて評価される。
このギャップに対処するために,植物診断における多段階的意図駆動型視覚推論のベンチマークであるPlantInquiryVQAを導入する。
診断トラジェクトリを、接地された視覚的手がかりと明示的なてんかん意図に基づく順序付き質問応答シーケンスとしてモデル化する。
24,950名の植物画像と138,068組の質問応答対に,視覚的接地,重度ラベル,ドメイン固有の推論テンプレートを付加したデータセットを作成した。
上位階層のマルチモーダル大言語モデルの評価では、視覚症状を適切に記述する一方で、安全な臨床推論と正確な診断に苦慮していることが明らかとなった。
重要なことは、構造化された質問誘導調査によって診断精度が大幅に向上し、幻覚が減少し、推論効率が向上することである。
PlantInquiryVQAは、静的分類器ではなく、専門家の植物学者のように、診断エージェントを訓練するための研究を進めるための基礎的なベンチマークとして機能することを願っている。
関連論文リスト
- Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning [21.809404751735503]
我々は,質問誘導,組織認識,粗粒度検索フレームワークHistoSelectを提案する。
提案手法は既存の手法より優れ, 解釈可能な, 病理学的に整合した領域で解答を導出する。
以上の結果から,WSI推論に人間ライクな検索と注意パターンを取り入れることが,実用的で信頼性の高いVLMを構築する上で有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2026-02-28T14:22:53Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning [13.783146290218738]
本稿では,画像解析とテキスト推論を組み合わせたマルチモーダル医療基盤モデルであるCitrus-Vを紹介する。
このモデルは、検出、セグメンテーション、およびマルチモーダル・チェーン・オブ・シント推論を統合する。
ピクセルレベルの病変の局所化、構造化レポート生成、医師のような診断推論をサポートする。
論文 参考訳(メタデータ) (2025-09-23T14:42:31Z) - Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning [9.075284970935341]
Patho-AgenticRAGは、権威的な病理教科書からページレベルの埋め込みに基づいて構築されたデータベースである。
共同でテキストイメージ検索をサポートし、クエリされたテキストと関連する視覚的手がかりの両方を含む教科書ページの直接検索を可能にする。
Patho-AgenticRAGは、多重選択診断や視覚的質問応答といった複雑な病態タスクにおいて、既存のマルチモーダルモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-04T10:03:08Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - Assessing glaucoma in retinal fundus photographs using Deep Feature
Consistent Variational Autoencoders [63.391402501241195]
緑内障は症状が重くなるまで無症状のままでいるため、検出が困難である。
緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われることが多い。
ディープラーニング手法はこのジレンマを、マーカー識別段階をバイパスし、ハイレベルな情報を分析してデータを分類することで部分的に解決している。
論文 参考訳(メタデータ) (2021-10-04T16:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。