論文の概要: A Vision-Language Foundation Model for Leaf Disease Identification
- arxiv url: http://arxiv.org/abs/2505.07019v1
- Date: Sun, 11 May 2025 15:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.161975
- Title: A Vision-Language Foundation Model for Leaf Disease Identification
- Title(参考訳): 葉の病原性同定のための視覚言語基礎モデル
- Authors: Khang Nguyen Quoc, Lan Le Thi Thu, Luyl-Da Quach,
- Abstract要約: 葉の病原性同定は、スマート農業において重要な役割を担っている。
既存の多くの研究は、互いの限界を補うために画像とテキストのモダリティを統合するのに依然として苦労している。
これらの課題に対処する文脈対応の視覚言語基盤モデルであるSCOLDを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Leaf disease identification plays a pivotal role in smart agriculture. However, many existing studies still struggle to integrate image and textual modalities to compensate for each other's limitations. Furthermore, many of these approaches rely on pretraining with constrained datasets such as ImageNet, which lack domain-specific information. We propose SCOLD (Soft-target COntrastive learning for Leaf Disease identification), a context-aware vision-language foundation model tailored to address these challenges for agricultural tasks. SCOLD is developed using a diverse corpus of plant leaf images and corresponding symptom descriptions, comprising over 186,000 image-caption pairs aligned with 97 unique concepts. Through task-agnostic pretraining, SCOLD leverages contextual soft targets to mitigate overconfidence in contrastive learning by smoothing labels, thereby improving model generalization and robustness on fine-grained classification tasks. Experimental results demonstrate that SCOLD outperforms existing vision-language models such as OpenAI-CLIP-L, BioCLIP, and SigLIP2 across several benchmarks, including zero-shot and few-shot classification, image-text retrieval, and image classification, while maintaining a competitive parameter footprint. Ablation studies further highlight SCOLD's effectiveness in contrast to its counterparts. The proposed approach significantly advances the agricultural vision-language foundation model, offering strong performance with minimal or no supervised fine-tuning. This work lays a solid groundwork for future research on models trained with long-form and simplified contexts, tasks involving class ambiguity, and multi-modal systems for intelligent plant disease diagnostics. The code for this study is available at https://huggingface.co/enalis/scold
- Abstract(参考訳): 葉の病原性同定は、スマート農業において重要な役割を担っている。
しかし、既存の多くの研究は、互いの限界を補うために画像とテキストのモダリティを統合するのに依然として苦労している。
さらに、これらのアプローチの多くは、ドメイン固有の情報を持たないImageNetのような制約付きデータセットによる事前トレーニングに依存している。
本稿では,これらの課題に対処するための文脈認識型視覚言語基盤モデルであるSCOLD(Soft-target Contrastive Learning for Leaf Disease Identification)を提案する。
SCOLDは植物葉の画像の多彩なコーパスとそれに対応する症状記述を用いて開発された。
sk-agnostic pretrainingにより、SCOLDは文脈的ソフトターゲットを活用し、ラベルの平滑化による対照的な学習における過信を緩和し、きめ細かい分類タスクにおけるモデル一般化と堅牢性を改善する。
実験結果から、SCOLDは、ゼロショットや少数ショットの分類、画像テキスト検索、画像分類など、OpenAI-CLIP-L、BioCLIP、SigLIP2といった既存のビジョン言語モデルよりも優れており、競合パラメータフットプリントを維持していることがわかった。
アブレーション研究はSCOLDの有効性をさらに強調している。
提案手法は農業ビジョン言語基盤モデルを大幅に改善し,教師付き微調整を最小あるいは無で実施する。
この研究は、長期的で単純化された文脈で訓練されたモデル、クラスあいまいさを含むタスク、インテリジェントな植物病診断のためのマルチモーダルシステムに関する、将来の研究のための確固たる基盤となる。
この研究のコードはhttps://huggingface.co/enalis/scoldで公開されている。
関連論文リスト
- MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning [44.99833362998488]
医用画像解析のための階層的コントラストアライメント(HiCA)を用いた適応型視覚言語ファインタニングを提案する。
HiCAは、ドメイン固有の事前学習と階層的コントラスト学習を組み合わせて、視覚的およびテキスト的表現を複数のレベルで整列させる。
我々はChest X-rayとBreast Ultrasoundという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-01-16T05:01:30Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Towards a Visual-Language Foundation Model for Computational Pathology [5.72536252929528]
病理組織学(CONCH)におけるコントラスト学習について紹介する。
CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。
13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-07-24T16:13:43Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。