論文の概要: MSFNet-CPD: Multi-Scale Cross-Modal Fusion Network for Crop Pest Detection
- arxiv url: http://arxiv.org/abs/2505.02441v1
- Date: Mon, 05 May 2025 08:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.59584
- Title: MSFNet-CPD: Multi-Scale Cross-Modal Fusion Network for Crop Pest Detection
- Title(参考訳): 作物害虫検出のためのマルチスケールクロスモーダル核融合ネットワーク MSFNet-CPD
- Authors: Jiaqi Zhang, Zhuodong Liu, Kejian Yu,
- Abstract要約: 農薬の正確な識別は、作物の保護に不可欠である。
ディープラーニングには先進的な害虫検出があるが、既存のアプローチのほとんどは、低レベルの視覚的特徴にのみ依存している。
- 参考スコア(独自算出の注目度): 3.5148549831413036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate identification of agricultural pests is essential for crop protection but remains challenging due to the large intra-class variance and fine-grained differences among pest species. While deep learning has advanced pest detection, most existing approaches rely solely on low-level visual features and lack effective multi-modal integration, leading to limited accuracy and poor interpretability. Moreover, the scarcity of high-quality multi-modal agricultural datasets further restricts progress in this field. To address these issues, we construct two novel multi-modal benchmarks-CTIP102 and STIP102-based on the widely-used IP102 dataset, and introduce a Multi-scale Cross-Modal Fusion Network (MSFNet-CPD) for robust pest detection. Our approach enhances visual quality via a super-resolution reconstruction module, and feeds both the original and reconstructed images into the network to improve clarity and detection performance. To better exploit semantic cues, we propose an Image-Text Fusion (ITF) module for joint modeling of visual and textual features, and an Image-Text Converter (ITC) that reconstructs fine-grained details across multiple scales to handle challenging backgrounds. Furthermore, we introduce an Arbitrary Combination Image Enhancement (ACIE) strategy to generate a more complex and diverse pest detection dataset, MTIP102, improving the model's generalization to real-world scenarios. Extensive experiments demonstrate that MSFNet-CPD consistently outperforms state-of-the-art methods on multiple pest detection benchmarks. All code and datasets will be made publicly available at: https://github.com/Healer-ML/MSFNet-CPD.
- Abstract(参考訳): 農業害虫の正確な同定は作物保護に不可欠であるが, 種内変異が大きく, 種間の違いが微妙に異なるため, 依然として困難である。
ディープラーニングには先進的な害虫検出があるが、既存のアプローチのほとんどは低レベルな視覚的特徴のみに依存しており、効果的なマルチモーダル統合が欠如しているため、精度が制限され、解釈性が低い。
さらに、高品質なマルチモーダル農業データセットの不足により、この分野の進歩はさらに制限される。
これらの問題に対処するために、広く使われているIP102データセットに基づいて、CTIP102とSTIP102という2つの新しいマルチモーダルベンチマークを構築し、堅牢な害虫検出のためのマルチスケールクロスモーダルフュージョンネットワーク(MSFNet-CPD)を導入する。
提案手法は,超解像再構成モジュールを用いて視覚的品質を向上し,オリジナル画像と再構成画像の両方をネットワークに供給し,明瞭度と検出性能を向上させる。
本稿では,視覚的特徴とテキスト的特徴の融合モデリングのためのイメージテキスト融合(ITF)モジュールと,複数のスケールにわたる細かな詳細を再構築して,課題のある背景を扱うイメージテキスト変換器(ITC)を提案する。
さらに、より複雑で多様な害虫検出データセット MTIP102 を生成するためのArbitrary Combination Image Enhancement (ACIE) 戦略を導入し、実際のシナリオへのモデルの一般化を改善した。
MSFNet-CPDは、複数の害虫検出ベンチマークにおいて、最先端の手法よりも一貫して優れていることを示す。
すべてのコードとデータセットは、https://github.com/Healer-ML/MSFNet-CPDで公開されます。
関連論文リスト
- HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - A Multimodal Approach for Advanced Pest Detection and Classification [0.9003384937161055]
本稿では,農業害虫検出のための多モード深層学習フレームワークを提案する。
小型BERTの自然言語処理とR-CNNとResNet-18の画像処理を組み合わせる。
論文 参考訳(メタデータ) (2023-12-18T05:54:20Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z) - TFormer: A throughout fusion transformer for multi-modal skin lesion
diagnosis [6.899641625551976]
我々は,MSLDで十分な情報干渉を行うために,純粋なトランスフォーマーベースのTFormer(スルーアウト・フュージョン・トランスフォーマー)を提案する。
そこで我々は,2分岐階層型マルチモーダルトランス (HMT) ブロックのスタックを慎重に設計し,ステージバイステージ方式で異なる画像モダリティ間で情報を融合する。
我々のTFormerは、他の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-11-21T12:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。