論文の概要: Plant Species Recognition with Optimized 3D Polynomial Neural Networks
and Variably Overlapping Time-Coherent Sliding Window
- arxiv url: http://arxiv.org/abs/2203.02611v1
- Date: Fri, 4 Mar 2022 23:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 15:23:39.771998
- Title: Plant Species Recognition with Optimized 3D Polynomial Neural Networks
and Variably Overlapping Time-Coherent Sliding Window
- Title(参考訳): 最適化した3次元多項式ニューラルネットワークと時間コヒーレントなスライディングウィンドウを用いた植物種認識
- Authors: Habib Ben Abdallah, Christopher J. Henry, Sheela Ramanna
- Abstract要約: 本稿では,可変サイズの画像からなるデータセットを一定サイズの3次元表現に変換するVOTCSW(Variably Overlapping Time-Coherent Sliding Window)を提案する。
VOTCSW法と最近提案された1次元多項式ニューラルネットワークと呼ばれる機械学習モデルの3次元拡張を組み合わせることで、EAGL-Iシステムによって作成されたデータセットに対して、最先端の精度99.9%を達成したモデルを作成することができた。
- 参考スコア(独自算出の注目度): 3.867363075280544
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, the EAGL-I system was developed to rapidly create massive labeled
datasets of plants intended to be commonly used by farmers and researchers to
create AI-driven solutions in agriculture. As a result, a publicly available
plant species recognition dataset composed of 40,000 images with different
sizes consisting of 8 plant species was created with the system in order to
demonstrate its capabilities. This paper proposes a novel method, called
Variably Overlapping Time-Coherent Sliding Window (VOTCSW), that transforms a
dataset composed of images with variable size to a 3D representation with fixed
size that is suitable for convolutional neural networks, and demonstrates that
this representation is more informative than resizing the images of the dataset
to a given size. We theoretically formalized the use cases of the method as
well as its inherent properties and we proved that it has an oversampling and a
regularization effect on the data. By combining the VOTCSW method with the 3D
extension of a recently proposed machine learning model called 1-Dimensional
Polynomial Neural Networks, we were able to create a model that achieved a
state-of-the-art accuracy of 99.9% on the dataset created by the EAGL-I system,
surpassing well-known architectures such as ResNet and Inception. In addition,
we created a heuristic algorithm that enables the degree reduction of any
pre-trained N-Dimensional Polynomial Neural Network and which compresses it
without altering its performance, thus making the model faster and lighter.
Furthermore, we established that the currently available dataset could not be
used for machine learning in its present form, due to a substantial class
imbalance between the training set and the test set. Hence, we created a
specific preprocessing and a model development framework that enabled us to
improve the accuracy from 49.23% to 99.9%.
- Abstract(参考訳): 近年、EAGL-Iシステムは、農夫や研究者が農業においてAI駆動のソリューションを作成するのによく使うことを意図した、大規模ラベル付き植物データセットを迅速に作成するために開発された。
その結果、8種の植物種からなる異なる大きさの4万枚の画像からなる植物種認識データセットがシステムで作成され、その能力が実証された。
本稿では,可変サイズの画像からなるデータセットを,畳み込みニューラルネットワークに適した固定サイズの3次元表現に変換する,VOTCSW (Variably Overlapping Time-Coherent Sliding Window) という新しい手法を提案する。
理論上,本手法の用途とその固有特性を定式化し,データに対する過剰サンプリングと正規化効果があることを証明した。
VOTCSW法と最近提案された1次元多項式ニューラルネットワークと呼ばれる機械学習モデルの3次元拡張を組み合わせることで、EAGL-Iシステムによって作成されたデータセットに対して99.9%の最先端精度を達成し、ResNetやInceptionのようなよく知られたアーキテクチャを上回るモデルを構築することができた。
さらに,事前学習したN次元ポリノミアルニューラルネットワークの次数削減が可能なヒューリスティックアルゴリズムを作成し,その性能を変化させることなく圧縮し,より高速で軽量なモデルを実現する。
さらに,現在利用可能なデータセットは,トレーニングセットとテストセットとの間にかなりのクラス不均衡があるため,現在の形式では機械学習に使用できないことが判明した。
そのため、特定の前処理とモデル開発フレームワークを作成し、49.23%から99.9%の精度向上を可能にしました。
関連論文リスト
- Masked Generative Extractor for Synergistic Representation and 3D Generation of Point Clouds [6.69660410213287]
我々は,3次元表現学習と生成学習を深く統合する利点を探るため,Point-MGEと呼ばれる革新的なフレームワークを提案する。
形状分類において、Point-MGEはModelNet40データセットで94.2%(+1.0%)、ScanObjectNNデータセットで92.9%(+5.5%)の精度を達成した。
また,非条件条件と条件条件条件条件の両方で,Point-MGEが高品質な3D形状を生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-06-25T07:57:03Z) - MeshXL: Neural Coordinate Field for Generative 3D Foundation Models [51.1972329762843]
本稿では,現代の大規模言語モデルを用いた3次元メッシュ生成のプロセスに対処する,事前学習型自己回帰モデルの生成ファミリを提案する。
MeshXLは高品質な3Dメッシュを生成することができ、さまざまなダウンストリームアプリケーションの基盤モデルとしても機能する。
論文 参考訳(メタデータ) (2024-05-31T14:35:35Z) - Learning-Based Biharmonic Augmentation for Point Cloud Classification [79.13962913099378]
Biharmonic Augmentation (BA)は、新しくて効率的なデータ拡張技術である。
BAは、既存の3D構造にスムーズな非剛性変形を与えることにより、点雲データを多様化する。
本稿では,先進的なオンライン強化システムであるAdvTuneについて紹介する。
論文 参考訳(メタデータ) (2023-11-10T14:04:49Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - 3D Generative Model Latent Disentanglement via Local Eigenprojection [13.713373496487012]
本稿では,3次元頭部および体メッシュの異なるニューラルネットワークに基づく生成モデルに対するスペクトル幾何学に基づく新しい損失関数を提案する。
実験結果から,我々の局所固有射影不整形(LED)モデルでは,最先端技術に対する不整形が改善されていることがわかった。
論文 参考訳(メタデータ) (2023-02-24T18:19:49Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Model-inspired Deep Learning for Light-Field Microscopy with Application
to Neuron Localization [27.247818386065894]
光フィールド顕微鏡画像を用いた高速かつ堅牢なソースの3Dローカリゼーションを実現するモデルに基づくディープラーニング手法を提案する。
これは畳み込みスパース符号化問題を効率的に解くディープネットワークを開発することによって実現される。
光場からのほ乳類ニューロンの局在化実験により,提案手法が性能,解釈性,効率の向上をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-10T16:24:47Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。