論文の概要: A Lightweight and Explainable Vision-Language Framework for Crop Disease Visual Question Answering
- arxiv url: http://arxiv.org/abs/2601.05143v1
- Date: Thu, 08 Jan 2026 17:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.304279
- Title: A Lightweight and Explainable Vision-Language Framework for Crop Disease Visual Question Answering
- Title(参考訳): 作物病視覚質問応答のための軽量で説明可能な視覚言語フレームワーク
- Authors: Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary,
- Abstract要約: 本研究は,葉のイメージから作物や病気を識別する軽量な視覚言語フレームワークを提案する。
視覚表現学習とクロスモーダルアライメントを改善するために、2段階のトレーニング戦略が採用されている。
実験の結果,作物の同定と病原体同定の精度が高かった。
- 参考スコア(独自算出の注目度): 0.2624902795082451
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual question answering for crop disease analysis requires accurate visual understanding and reliable language generation. This work presents a lightweight vision-language framework for crop and disease identification from leaf images. The proposed approach combines a Swin Transformer vision encoder with sequence-to-sequence language decoders. A two-stage training strategy is adopted to improve visual representation learning and cross-modal alignment. The model is evaluated on a large-scale crop disease dataset using classification and natural language generation metrics. Experimental results show high accuracy for both crop and disease identification. The framework also achieves strong performance on BLEU, ROUGE and BERTScore. Our proposed models outperform large-scale vision-language baselines while using significantly fewer parameters. Explainability is assessed using Grad-CAM and token-level attribution. Qualitative results demonstrate robust performance under diverse user-driven queries. These findings highlight the effectiveness of task-specific visual pretraining for crop disease visual question answering.
- Abstract(参考訳): 作物病解析のための視覚的質問応答には、正確な視覚的理解と言語生成が必要である。
本研究は,葉のイメージから作物や病気を識別する軽量な視覚言語フレームワークを提案する。
提案手法はSwin Transformer Vision EncoderとSequence-to-Sequence Language Decoderを組み合わせたものである。
視覚表現学習とクロスモーダルアライメントを改善するために、2段階のトレーニング戦略が採用されている。
このモデルは、分類と自然言語生成指標を用いて、大規模作物病データセットで評価する。
実験の結果,作物の同定と病原体同定の精度が高かった。
このフレームワークはBLEU、ROUGE、BERTScoreでも高いパフォーマンスを実現している。
提案するモデルは,パラメータを著しく少なくしながら,大規模な視覚言語ベースラインより優れている。
Grad-CAMとトークンレベルの属性を使って説明可能性を評価する。
質的な結果は、多様なユーザ駆動クエリで堅牢なパフォーマンスを示す。
これらの知見は、作物病の視覚的質問応答に対するタスク固有の視覚前訓練の有効性を浮き彫りにした。
関連論文リスト
- Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation [25.148217482604746]
VALOR:放射線診断用医用ビジョンランゲージモデルの視覚的アライメントを提案する。
GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
複数のベンチマークの実験では、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-18T05:48:21Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models [29.571937393873444]
クロスモーダル・コントラッシブ・ラーニング (CLIP) 法は, 準最適視覚表現能力に悩まされる。
トレーニング可能なパラメータの約8%しか利用できない効率的な視覚言語アライメント手法であるALTA(Align Through Adapting)を提案する。
ALTAは、マスク付きレコードモデリングから事前学習された視覚モデルを適用することにより、検索やゼロショット分類などの視覚言語マッチングタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-10T17:02:27Z) - Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [45.248265283405004]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。
DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文 参考訳(メタデータ) (2025-05-21T05:16:45Z) - A Vision-Language Foundation Model for Leaf Disease Identification [0.0]
葉の病原性同定は、スマート農業において重要な役割を担っている。
既存の多くの研究は、互いの限界を補うために画像とテキストのモダリティを統合するのに依然として苦労している。
これらの課題に対処する文脈対応の視覚言語基盤モデルであるSCOLDを提案する。
論文 参考訳(メタデータ) (2025-05-11T15:30:06Z) - MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [36.59100450109841]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - Guiding Medical Vision-Language Models with Explicit Visual Prompts: Framework Design and Comprehensive Exploration of Prompt Variations [15.052986179046076]
医用エンティティ抽出,視覚的プロンプト生成,およびデータセット適応を統合した,視覚的プロンプトによる微調整のための先駆的フレームワークであるMedVPを紹介する。
我々は、複数の医療用VQAデータセットにおいて、最新の最先端の大規模モデルを上回る結果を得た。
論文 参考訳(メタデータ) (2025-01-04T21:23:36Z) - Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。
我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。
当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文 参考訳(メタデータ) (2024-11-28T05:23:22Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。