論文の概要: Automatic Fused Multimodal Deep Learning for Plant Identification
- arxiv url: http://arxiv.org/abs/2406.01455v2
- Date: Sun, 10 Nov 2024 13:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:18.217297
- Title: Automatic Fused Multimodal Deep Learning for Plant Identification
- Title(参考訳): 植物同定のための自動融合型マルチモーダル深層学習
- Authors: Alfreds Lapkovskis, Natalia Nefedova, Ali Beikmohammadi,
- Abstract要約: 自動モーダル融合を用いた植物分類のための先駆的な多モードDLベースのアプローチを提案する。
PlantCLEF2015データセットの979クラスに対して82.61%の精度を達成した。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License:
- Abstract: Plant classification is vital for ecological conservation and agricultural productivity, enhancing our understanding of plant growth dynamics and aiding species preservation. The advent of deep learning (DL) techniques has revolutionized this field by enabling autonomous feature extraction, significantly reducing the dependence on manual expertise. However, conventional DL models often rely solely on single data sources, failing to capture the full biological diversity of plant species comprehensively. Recent research has turned to multimodal learning to overcome this limitation by integrating multiple data types, which enriches the representation of plant characteristics. This shift introduces the challenge of determining the optimal point for modality fusion. In this paper, we introduce a pioneering multimodal DL-based approach for plant classification with automatic modality fusion. Utilizing the multimodal fusion architecture search, our method integrates images from multiple plant organs--flowers, leaves, fruits, and stems--into a cohesive model. Our method achieves 82.61% accuracy on 979 classes of the PlantCLEF2015 dataset, surpassing state-of-the-art methods and outperforming late fusion by 10.33%. Through the incorporation of multimodal dropout, our approach demonstrates strong robustness to missing modalities. We validate our model against established benchmarks using standard performance metrics and McNemar's test, further underscoring its superiority.
- Abstract(参考訳): 植物分類は, 生態系の保全と農業の生産性, 植物の成長動態の理解の向上, 種保全支援に不可欠である。
ディープラーニング(DL)技術の出現は、自律的な特徴抽出を可能にし、手作業の専門知識への依存を大幅に減らし、この分野に革命をもたらした。
しかし、従来のDLモデルは単一のデータソースのみに依存しており、植物種の完全な生物学的多様性を包括的に捉えていないことが多い。
最近の研究は、植物の特徴の表現を豊かにする複数のデータ型を統合することで、この制限を克服するマルチモーダル学習に転換している。
このシフトは、モダリティ融合の最適点を決定するという課題をもたらす。
本稿では,自動モダリティ融合を用いた植物分類における先駆的マルチモーダルDLに基づくアプローチを提案する。
マルチモーダル・フュージョン・アーキテクチャ・サーチを用いて,複数の植物器官のイメージ(花,葉,果実,茎)を凝集モデルに統合する。
PlantCLEF2015データセットの979クラスに対して82.61%の精度を達成し、最先端の手法を超越し、後期融合を10.33%上回った。
マルチモーダル・ドロップアウトの導入により,本手法はモダリティの欠如に対して強い堅牢性を示す。
我々は、標準的なパフォーマンス指標とMcNemarのテストを用いて、確立されたベンチマークに対してモデルを検証し、その優位性をさらに強調する。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Application of Multimodal Fusion Deep Learning Model in Disease Recognition [14.655086303102575]
本稿では,従来の単一モーダル認識手法の欠点を克服する,革新的なマルチモーダル融合深層学習手法を提案する。
特徴抽出段階では、画像ベース、時間的、構造化されたデータソースから高度な特徴を抽出するために最先端のディープラーニングモデルを適用する。
その結果, マルチモーダル融合モデルにおいて, 複数の評価指標にまたがる大きな利点が示された。
論文 参考訳(メタデータ) (2024-05-22T23:09:49Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - Improving Multimodal fusion via Mutual Dependency Maximisation [5.73995120847626]
マルチモーダル・感情分析は研究のトレンドとなっている分野であり、マルチモーダル・フュージョンは最も活発なトピックの1つである。
本研究では,未探索の罰則を調査し,モダリティ間の依存性を測定するための新たな目的セットを提案する。
我々は、我々の新しい罰則が様々な最先端モデルに対して一貫した改善(正確性で最大4.3ドル)をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-31T06:26:26Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。