論文の概要: Benchmarking In-the-wild Multimodal Disease Recognition and A Versatile Baseline
- arxiv url: http://arxiv.org/abs/2408.03120v1
- Date: Tue, 6 Aug 2024 11:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:17:45.583095
- Title: Benchmarking In-the-wild Multimodal Disease Recognition and A Versatile Baseline
- Title(参考訳): In-the-wild Multimodal Disease RecognitionとVersatile Baselineのベンチマーク
- Authors: Tianqi Wei, Zhi Chen, Zi Huang, Xin Yu,
- Abstract要約: そこで本研究では,植物病原体認識データセットを提案する。
病気のクラスが最も多いだけでなく、各疾患に関するテキストベースの記述も含んでいる。
提案したデータセットは,実世界の疾患認識手法を評価するための理想的なテストベッドとみなすことができる。
- 参考スコア(独自算出の注目度): 42.49727243388804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing plant disease classification models have achieved remarkable performance in recognizing in-laboratory diseased images. However, their performance often significantly degrades in classifying in-the-wild images. Furthermore, we observed that in-the-wild plant images may exhibit similar appearances across various diseases (i.e., small inter-class discrepancy) while the same diseases may look quite different (i.e., large intra-class variance). Motivated by this observation, we propose an in-the-wild multimodal plant disease recognition dataset that contains the largest number of disease classes but also text-based descriptions for each disease. Particularly, the newly provided text descriptions are introduced to provide rich information in textual modality and facilitate in-the-wild disease classification with small inter-class discrepancy and large intra-class variance issues. Therefore, our proposed dataset can be regarded as an ideal testbed for evaluating disease recognition methods in the real world. In addition, we further present a strong yet versatile baseline that models text descriptions and visual data through multiple prototypes for a given class. By fusing the contributions of multimodal prototypes in classification, our baseline can effectively address the small inter-class discrepancy and large intra-class variance issues. Remarkably, our baseline model can not only classify diseases but also recognize diseases in few-shot or training-free scenarios. Extensive benchmarking results demonstrate that our proposed in-the-wild multimodal dataset sets many new challenges to the plant disease recognition task and there is a large space to improve for future works.
- Abstract(参考訳): 既存の植物病の分類モデルは、炎症性疾患の画像の認識において顕著な性能を発揮している。
しかし、その性能は、線内画像の分類において著しく低下することが多い。
さらに,野生植物では様々な疾患(小クラス間差)に類似した出現がみられたが,同じ疾患(大クラス内差)とは全く異なっていた(大クラス間差)。
本研究の目的は,病種数が最も多いだけでなく,病種毎のテキストによる記述も含む,病種間マルチモーダル植物病の認識データセットを提案することである。
特に、新たに提供されるテキスト記述を導入し、テキストモダリティの豊富な情報を提供し、クラス間差が小さく、クラス内ばらつきの大きい病原体分類を容易にする。
したがって,本提案データセットは実世界における疾患認識手法を評価するための理想的なテストベッドとみなすことができる。
さらに,テキスト記述や視覚データを,クラスごとに複数のプロトタイプを通じてモデル化する,強力で汎用的なベースラインも提示する。
分類におけるマルチモーダルプロトタイプの貢献を融合させることで、我々のベースラインは、クラス間の小さな相違とクラス間の大きな分散問題に効果的に対処できる。
注目すべきは、私たちのベースラインモデルは病気を分類するだけでなく、ほとんどショットやトレーニングなしのシナリオで病気を認識することができることである。
大規模ベンチマークの結果,本提案したマルチモーダルデータセットは,植物病の認識タスクに多くの新たな課題を課し,今後の課題に対して大きな改善の余地があることが示唆された。
関連論文リスト
- Cross- and Intra-image Prototypical Learning for Multi-label Disease Diagnosis and Interpretation [15.303610605543746]
医用画像からの正確なマルチラベル診断と解釈のためのクロスタイプおよびイントライメージ型学習フレームワークを提案する。
本稿では,一貫性のある画像内情報を効果的に活用し,解釈の堅牢性と予測性能を向上させる2段階アライメントに基づく新たな正規化戦略を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:46:01Z) - PMP-Swin: Multi-Scale Patch Message Passing Swin Transformer for Retinal
Disease Classification [9.651435376561741]
マルチスケール・パッチ・メッセージ・パッシング・スウィン・トランスフォーマ (Multi-Scale Patch Message Passing Swin Transformer) という新しいフレームワークを提案する。
具体的には,Patch Message Passing(PMP)モジュールをMessage Passing機構に基づいて設計し,病的意味的特徴のグローバルな相互作用を確立する。
論文 参考訳(メタデータ) (2023-11-20T11:09:09Z) - Multi-task Explainable Skin Lesion Classification [54.76511683427566]
少ないラベル付きデータでよく一般化する皮膚病変に対する数発のショットベースアプローチを提案する。
提案手法は,アテンションモジュールや分類ネットワークとして機能するセグメンテーションネットワークの融合を含む。
論文 参考訳(メタデータ) (2023-10-11T05:49:47Z) - Hierarchical Knowledge Guided Learning for Real-world Retinal Diseases
Recognition [20.88407972858568]
眼科AIで最近発表されたいくつかのデータセットは、40種類以上の網膜疾患からなり、複雑な異常と様々な致死性がある。
モデリングの観点からは、これらのデータセットでトレーニングされたほとんどのディープラーニングモデルは、まれな疾患に一般化する能力に欠ける可能性がある。
本稿では,網膜疾患認識のための長期データベースから深部ニューラルネットワークを学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-17T05:44:39Z) - Relational Subsets Knowledge Distillation for Long-tailed Retinal
Diseases Recognition [65.77962788209103]
本研究では,長尾データを知識に基づいて複数のクラスサブセットに分割し,クラスサブセット学習を提案する。
モデルがサブセット固有の知識の学習に集中するように強制する。
提案手法は長期網膜疾患認識タスクに有効であることが判明した。
論文 参考訳(メタデータ) (2021-04-22T13:39:33Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Multi-label Thoracic Disease Image Classification with Cross-Attention
Networks [65.37531731899837]
胸部X線画像から胸部疾患を自動分類するためのCAN(Cross-Attention Networks)を提案する。
また,クロスエントロピー損失を超える新たな損失関数を設計し,クラス間の不均衡を克服する。
論文 参考訳(メタデータ) (2020-07-21T14:37:00Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Synergic Adversarial Label Learning for Grading Retinal Diseases via
Knowledge Distillation and Multi-task Learning [29.46896757506273]
良質な医師のアノテート画像は非常に高価であり、様々な網膜疾患に対して限られた量のデータしか利用できない。
一部の研究では、AMDとDRは出血点や吐出などの一般的な特徴を共有しているが、ほとんどの分類アルゴリズムはこれらの疾患モデルを個別に訓練するだけである。
本稿では,関連網膜疾患ラベルを意味的および特徴空間の両方で付加的な信号として活用し,協調的にモデルを訓練するSALL法を提案する。
論文 参考訳(メタデータ) (2020-03-24T01:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。