論文の概要: CT-CLIP: A Multi-modal Fusion Framework for Robust Apple Leaf Disease Recognition in Complex Environments
- arxiv url: http://arxiv.org/abs/2510.21346v1
- Date: Fri, 24 Oct 2025 11:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.448122
- Title: CT-CLIP: A Multi-modal Fusion Framework for Robust Apple Leaf Disease Recognition in Complex Environments
- Title(参考訳): CT-CLIP : 複雑な環境下でのロバストなAppleリーフ病認識のための多モード融合フレームワーク
- Authors: Lemin Liu, Fangchao Hu, Honghua Jiang, Yaru Chen, Limin Liu, Yongliang Qiao,
- Abstract要約: 本研究では,CNN-Transformer-CLIP (CT-CLIP) というマルチブランチ認識フレームワークを提案する。
アダプティブ・フィーチャー・フュージョン・モジュール(AFFM)はこれらの特徴を動的に融合させ、局所情報とグローバル情報の最適な結合を実現する。
CT-CLIPは、利用可能なリンゴ病と自己構築したデータセットに対して97.38%と96.12%の精度を達成し、いくつかのベースライン法より優れている。
- 参考スコア(独自算出の注目度): 2.956716588681065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In complex orchard environments, the phenotypic heterogeneity of different apple leaf diseases, characterized by significant variation among lesions, poses a challenge to traditional multi-scale feature fusion methods. These methods only integrate multi-layer features extracted by convolutional neural networks (CNNs) and fail to adequately account for the relationships between local and global features. Therefore, this study proposes a multi-branch recognition framework named CNN-Transformer-CLIP (CT-CLIP). The framework synergistically employs a CNN to extract local lesion detail features and a Vision Transformer to capture global structural relationships. An Adaptive Feature Fusion Module (AFFM) then dynamically fuses these features, achieving optimal coupling of local and global information and effectively addressing the diversity in lesion morphology and distribution. Additionally, to mitigate interference from complex backgrounds and significantly enhance recognition accuracy under few-shot conditions, this study proposes a multimodal image-text learning approach. By leveraging pre-trained CLIP weights, it achieves deep alignment between visual features and disease semantic descriptions. Experimental results show that CT-CLIP achieves accuracies of 97.38% and 96.12% on a publicly available apple disease and a self-built dataset, outperforming several baseline methods. The proposed CT-CLIP demonstrates strong capabilities in recognizing agricultural diseases, significantly enhances identification accuracy under complex environmental conditions, provides an innovative and practical solution for automated disease recognition in agricultural applications.
- Abstract(参考訳): 複雑な果樹園環境では、様々なリンゴの葉病の表現型不均一性は、病変の顕著な変化によって特徴づけられ、従来のマルチスケールの特徴融合法に挑戦する。
これらの手法は、畳み込みニューラルネットワーク(CNN)によって抽出された多層的特徴のみを統合し、局所的特徴とグローバル的特徴の関係を適切に説明できない。
そこで本研究では,CNN-Transformer-CLIP (CT-CLIP) と呼ばれるマルチブランチ認識フレームワークを提案する。
このフレームワークは、CNNを使って局所的な病変の詳細特徴を抽出し、Vision Transformerを使ってグローバルな構造関係を捉える。
アダプティブ・フィーチャー・フュージョン・モジュール(AFFM)はこれらの特徴を動的に融合させ、局所的および大域的な情報の最適結合を実現し、病変の形態や分布の多様性に効果的に対処する。
さらに,複雑な背景からの干渉を軽減し,数ショット条件下での認識精度を大幅に向上させるため,マルチモーダル画像テキスト学習手法を提案する。
トレーニング済みのCLIP重みを利用することで、視覚的特徴と疾患意味記述の深い一致を実現する。
実験の結果、CT-CLIPは、利用可能なリンゴ病と自己構築したデータセットで97.38%、96.12%の精度を達成し、いくつかのベースライン法を上回る結果が得られた。
提案したCT-CLIPは, 農業病の認識能力が強く, 複雑な環境条件下での認識精度を大幅に向上し, 農業分野における自動疾患認識のための革新的で実用的なソリューションを提供する。
関連論文リスト
- CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [54.85000884785013]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation [60.08541107831459]
本稿では,医用画像セグメンテーションのための強力なCNNベースモデルとトランスフォーマーベースモデルを学習するための,CNN-Transformer修正協調学習フレームワークを提案する。
具体的には,学生ソフトラベルの誤り領域を適応的に選択・修正する基礎的真理を取り入れた修正ロジット・ワイド・コラボレーティブ・ラーニング(RLCL)戦略を提案する。
また,機能空間におけるCNNベースモデルとTransformerベースモデル間の効果的な知識伝達を実現するために,クラス認識型特徴量協調学習(CFCL)戦略を提案する。
論文 参考訳(メタデータ) (2024-08-25T01:27:35Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images [55.83984261827332]
本稿では,信頼性の高いマルチスケールウェーブレットエンハンストランスネットワークを提案する。
本研究では,ウェーブレット型特徴抽出器ネットワークとマルチスケール変圧器モジュールを統合したセグメンテーションバックボーンを開発した。
提案手法は,他の最先端セグメンテーション手法と比較して信頼性の高いセグメンテーション精度を実現する。
論文 参考訳(メタデータ) (2022-12-01T07:32:56Z) - MRI to PET Cross-Modality Translation using Globally and Locally Aware GAN (GLA-GAN) for Multi-Modal Diagnosis of Alzheimer's Disease [0.6597195879147557]
現実像を合成できるGAN(Generative Adversarial Network)は、標準的なデータ拡張手法の代替として大きな可能性を秘めている。
本稿では,グローバルな構造的整合性と局所的細部への忠実さを両立させるマルチパスアーキテクチャにより,グローバルかつ局所的に認識された画像間変換GAN(GLA-GAN)を提案する。
論文 参考訳(メタデータ) (2021-08-04T16:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。