論文の概要: Automatic Fused Multimodal Deep Learning for Plant Identification
- arxiv url: http://arxiv.org/abs/2406.01455v1
- Date: Mon, 3 Jun 2024 15:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-05 22:20:27.978683
- Title: Automatic Fused Multimodal Deep Learning for Plant Identification
- Title(参考訳): 植物同定のための自動融合型マルチモーダル深層学習
- Authors: Alfreds Lapkovskis, Natalia Nefedova, Ali Beikmohammadi,
- Abstract要約: 自動モーダル融合を用いた植物分類のための先駆的な多モードDLベースのアプローチを提案する。
PlantCLEF2015データセットの956クラスに対して,83.48%の精度を達成した。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plant classification is vital for ecological conservation and agricultural productivity, enhancing our understanding of plant growth dynamics and aiding species preservation. The advent of deep learning (DL) techniques has revolutionized this field by enabling autonomous feature extraction, significantly reducing the dependence on manual expertise. However, conventional DL models often rely solely on single data sources, failing to capture the full biological diversity of plant species comprehensively. Recent research has turned to multimodal learning to overcome this limitation by integrating multiple data types, which enriches the representation of plant characteristics. This shift introduces the challenge of determining the optimal point for modality fusion. In this paper, we introduce a pioneering multimodal DL-based approach for plant classification with automatic modality fusion. Utilizing the multimodal fusion architecture search, our method integrates images from multiple plant organs-flowers, leaves, fruits, and stems-into a cohesive model. Our method achieves 83.48% accuracy on 956 classes of the PlantCLEF2015 dataset, surpassing state-of-the-art methods. It outperforms late fusion by 11.07% and is more robust to missing modalities. We validate our model against established benchmarks using standard performance metrics and McNemar's test, further underscoring its superiority.
- Abstract(参考訳): 植物分類は, 生態系の保全と農業の生産性, 植物の成長動態の理解の向上, 種保全支援に不可欠である。
ディープラーニング(DL)技術の出現は、自律的な特徴抽出を可能にし、手作業の専門知識への依存を大幅に減らし、この分野に革命をもたらした。
しかし、従来のDLモデルは単一のデータソースのみに依存しており、植物種の完全な生物学的多様性を包括的に捉えていないことが多い。
最近の研究は、植物の特徴の表現を豊かにする複数のデータ型を統合することで、この制限を克服するマルチモーダル学習に転換している。
このシフトは、モダリティ融合の最適点を決定するという課題をもたらす。
本稿では,自動モダリティ融合を用いた植物分類における先駆的マルチモーダルDLに基づくアプローチを提案する。
マルチモーダル・フュージョン・アーキテクチャー・サーチを用いて,複数の植物器官の花,葉,果実,茎のイメージを凝集モデルに統合する。
PlantCLEF2015データセットの956クラスに対して83.48%の精度を達成し、最先端の手法を超越した。
後期融合よりも11.07%優れ、欠落したモダリティに対してより堅牢である。
我々は、標準的なパフォーマンス指標とMcNemarのテストを用いて、確立されたベンチマークに対してモデルを検証し、その優位性をさらに強調する。
関連論文リスト
- Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - What are You Looking at? Modality Contribution in Multimodal Medical Deep Learning Methods [0.13194391758295113]
本稿では,モデルがタスクを果たすためのデータセットにおいて,各モダリティの重要性を測定する手法を提案する。
いくつかのネットワークは、一様崩壊の傾向にあるモダリティの選好を持ち、いくつかのデータセットはゼロから不均衡であることがわかった。
深層学習に基づくマルチモーダル研究における解釈可能性の分野において,本手法は重要な貢献をする。
論文 参考訳(メタデータ) (2025-02-28T12:39:39Z) - Multiple Linked Tensor Factorization [0.0]
バイオメディカル研究では、マルチソースとマルチウェイの両方のハイコンテントデータを生成することが一般的である。
マルチソースとマルチウェイの因数分解への関心が高まっているが、マルチソースとマルチウェイの両方のデータを扱う方法は限られている。
本稿では,複数のマルチウェイアレイの次元を同時に削減し,基礎となる信号に近似するMultiple Linkeds Factorization (MULTIFAC)法を提案する。
論文 参考訳(メタデータ) (2025-02-27T17:12:57Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Enhancing Plant Disease Detection: A Novel CNN-Based Approach with Tensor Subspace Learning and HOWSVD-MD [3.285994579445155]
本稿では,トマト葉病の検出・分類のための最先端技術を紹介する。
本稿では,高次白色特異値分解(Higher-Order Whitened Singular Value Decomposition)と呼ばれる部分空間学習領域における高度なアプローチを提案する。
このイノベーティブな手法の有効性は、2つの異なるデータセットに関する包括的な実験を通じて厳密に検証された。
論文 参考訳(メタデータ) (2024-05-30T13:46:56Z) - Memory-efficient High-resolution OCT Volume Synthesis with Cascaded Amortized Latent Diffusion Models [48.87160158792048]
本稿では,高分解能CTボリュームをメモリ効率よく合成できるCA-LDM(Cascaded amortized Latent diffusion model)を提案する。
公開高解像度OCTデータセットを用いた実験により、我々の合成データは、既存の手法の能力を超越した、現実的な高解像度かつグローバルな特徴を持つことが示された。
論文 参考訳(メタデータ) (2024-05-26T10:58:22Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Application of Multimodal Fusion Deep Learning Model in Disease Recognition [14.655086303102575]
本稿では,従来の単一モーダル認識手法の欠点を克服する,革新的なマルチモーダル融合深層学習手法を提案する。
特徴抽出段階では、画像ベース、時間的、構造化されたデータソースから高度な特徴を抽出するために最先端のディープラーニングモデルを適用する。
その結果, マルチモーダル融合モデルにおいて, 複数の評価指標にまたがる大きな利点が示された。
論文 参考訳(メタデータ) (2024-05-22T23:09:49Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Generating Diverse Agricultural Data for Vision-Based Farming Applications [74.79409721178489]
このモデルは, 植物の成長段階, 土壌条件の多様性, 照明条件の異なるランダム化フィールド配置をシミュレートすることができる。
我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。
論文 参考訳(メタデータ) (2024-03-27T08:42:47Z) - BonnBeetClouds3D: A Dataset Towards Point Cloud-based Organ-level
Phenotyping of Sugar Beet Plants under Field Conditions [30.27773980916216]
農業生産は今後数十年間、気候変動と持続可能性の必要性によって深刻な課題に直面している。
自律無人航空機(UAV)による作物のモニタリングと、ロボットによる非化学雑草によるフィールド管理の進歩は、これらの課題に対処するのに有用である。
表現型化と呼ばれる植物形質の分析は、植物の育種に不可欠な活動であるが、大量の手作業が伴う。
論文 参考訳(メタデータ) (2023-12-22T14:06:44Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。
我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。
最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文 参考訳(メタデータ) (2021-11-23T16:43:49Z) - A Deep Learning Generative Model Approach for Image Synthesis of Plant
Leaves [62.997667081978825]
我々は,高度深層学習(DL)技術を用いて,人工葉画像の自動生成を行う。
我々は、現代の作物管理のためのAIアプリケーションのためのトレーニングサンプルのソースを処分することを目指している。
論文 参考訳(メタデータ) (2021-11-05T10:53:35Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - SWP-LeafNET: A novel multistage approach for plant leaf identification
based on deep CNN [1.9981375888949475]
葉分類は、植物種の自動識別のためのコンピュータビジョンタスクである。
近年、研究者は深層学習に基づく手法に傾倒している。
本稿では,植物学者の行動が葉の識別においてモデル化され,行動類似度を最大化するための高効率な手法を提案する。
論文 参考訳(メタデータ) (2020-09-10T20:28:57Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。