論文の概要: PestVL-Net: Enabling Multimodal Pest Learning via Fine-grained Vision-Language Interaction
- arxiv url: http://arxiv.org/abs/2604.17278v1
- Date: Sun, 19 Apr 2026 06:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.433259
- Title: PestVL-Net: Enabling Multimodal Pest Learning via Fine-grained Vision-Language Interaction
- Title(参考訳): PestVL-Net:きめ細かな視覚・言語相互作用によるマルチモーダル害虫学習の実現
- Authors: Xueheng Li, Tao Hu, Ke Cao, Runsheng Qi, Huixin Zhang, Rui Li, Jie Zhang, Chengjun Xie,
- Abstract要約: 既存のテクニックは、害虫の重要な視覚的および高レベルの意味的特徴をきめ細かな方法で効果的にモデル化するのに苦労している。
PestVL-Netという新しい視覚言語フレームワークを2つの多種性害虫データセットで提案し,より微細な害虫学習を容易にする。
これらの相補的な視覚的およびテキスト的表現の深い融合は、きめ細かいマルチモーダルな害虫学習を可能にする。
- 参考スコア(独自算出の注目度): 11.677135930362446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective pest recognition and management are crucial for sustainable agricultural development. However, collecting pest data in real scenarios is often challenging. Compared to other domains, pests exhibit a wide variety of species with complex and diverse morphological characteristics. Existing techniques struggle to effectively model the key visual and high-level semantic features of pests in a fine-grained manner. These limitations hinder the practical application of such methods in real agricultural scenarios. To address these critical challenges, we present a synergistic approach that integrates PestVL-Net, a novel vision-language framework, with two multi-species pest datasets to facilitate fine-grained pest learning. The visual pathway of PestVL-Net utilizes the Recurrent Weighted Key Value (RWKV) architecture, incorporating a saliency-guided adaptive window partitioning scheme to effectively model the fine-grained visual characteristics of pests. Concurrently, the linguistic component generates precise pest semantic descriptions by leveraging Multimodal Large Language Models (MLLMs) priors, critically informed by agricultural expert knowledge and structured via multimodal Chain-of-Thought (CoT) reasoning. The deep fusion of these complementary visual and textual representations enables fine-grained multimodal pest learning. Extensive experimental evaluations on multiple pest datasets validate the superior performance of PestVL-Net, highlighting its potential for effective real-world pest management.
- Abstract(参考訳): 持続可能な農業開発には効果的な害虫認識と管理が不可欠である。
しかし、実際のシナリオで害虫のデータを収集することはしばしば困難である。
他の領域と比較して、害虫は複雑で多様な形態的特徴を持つ多様な種を示す。
既存のテクニックは、害虫の重要な視覚的および高レベルの意味的特徴をきめ細かな方法で効果的にモデル化するのに苦労している。
これらの制限は、実際の農業シナリオにおけるそのような手法の実践的適用を妨げる。
これらの課題に対処するために、我々は、新しい視覚言語フレームワークであるPestVL-Netと、2つの多種性害虫データセットを統合して、きめ細かい害虫学習を容易にする、相乗的アプローチを提案する。
PestVL-Netの視覚経路はRWKVアーキテクチャ(Recurrent Weighted Key Value)を用いており、農薬の微細な視覚特性を効果的にモデル化するために、塩分誘導適応ウィンドウ分割スキームが組み込まれている。
同時に,マルチモーダル大規模言語モデル (MLLM) を先駆的に活用し,農業専門家の知識に批判的であり,マルチモーダル・チェーン・オブ・ソート (CoT) 推論によって構造化された,正確な害虫意味記述を生成する。
これらの相補的な視覚的およびテキスト的表現の深い融合は、きめ細かいマルチモーダルな害虫学習を可能にする。
複数の害虫データセットに対する大規模な実験的評価は、PestVL-Netの優れた性能を検証し、効果的な現実世界の害虫管理の可能性を強調している。
関連論文リスト
- AgriChat: A Multimodal Large Language Model for Agriculture Image Understanding [13.665861251747144]
我々は、数千の農業階級にまたがる幅広い知識を提示し、説明付きの詳細な農業評価を提供する専門的なMLLMであるAgriChatを紹介する。
その結果、視覚的詳細をWebで検証された知識と組み合わせて保存することは、堅牢で信頼性の高い農業用AIへの信頼できる経路であることがわかった。
論文 参考訳(メタデータ) (2026-03-14T11:49:05Z) - LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - MSFNet-CPD: Multi-Scale Cross-Modal Fusion Network for Crop Pest Detection [3.5148549831413036]
農薬の正確な識別は、作物の保護に不可欠である。
ディープラーニングには先進的な害虫検出があるが、既存のアプローチのほとんどは、低レベルの視覚的特徴にのみ依存している。
論文 参考訳(メタデータ) (2025-05-05T08:10:22Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - InsectMamba: Insect Pest Classification with State Space Model [8.470757741028661]
InsectMambaは、ステートスペースモデル(SSM)、畳み込みニューラルネットワーク(CNN)、マルチヘッド自己認識機構(MSA)、マルチレイヤパーセプトロン(MLP)をMix-SSMブロックに統合する新しいアプローチである。
5種類の害虫分類データセットの強い競争相手に対して評価された。
論文 参考訳(メタデータ) (2024-04-04T17:34:21Z) - A Multimodal Approach for Advanced Pest Detection and Classification [0.9003384937161055]
本稿では,農業害虫検出のための多モード深層学習フレームワークを提案する。
小型BERTの自然言語処理とR-CNNとResNet-18の画像処理を組み合わせる。
論文 参考訳(メタデータ) (2023-12-18T05:54:20Z) - Explainable AI in Grassland Monitoring: Enhancing Model Performance and
Domain Adaptability [0.6131022957085438]
草原は高い生物多様性と複数の生態系サービスを提供する能力で知られている。
指標植物の自動識別の課題は、大規模な草地モニタリングの鍵となる障害である。
本稿では,移動学習と草地モニタリングへのXAIアプローチを中心に,後者の2つの課題を考察する。
論文 参考訳(メタデータ) (2023-12-13T10:17:48Z) - Delving into Multimodal Prompting for Fine-grained Visual Classification [57.12570556836394]
細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。
事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。
対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
論文 参考訳(メタデータ) (2023-09-16T07:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。