論文の概要: Vision Transformers For Weeds and Crops Classification Of High
Resolution UAV Images
- arxiv url: http://arxiv.org/abs/2109.02716v1
- Date: Mon, 6 Sep 2021 19:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 02:09:46.720479
- Title: Vision Transformers For Weeds and Crops Classification Of High
Resolution UAV Images
- Title(参考訳): 高分解能uav画像の雑草・作物分類のための視覚トランスフォーマー
- Authors: Reenul Reedha, Eric Dericquebourg, Raphael Canals, Adel Hafiane
- Abstract要約: ビジョントランスフォーマー(ViT)モデルは、畳み込み操作を適用することなく、競争またはより良い結果を達成することができる。
実験の結果,ラベル付きトレーニングデータでは,最新のCNNモデルと比較して,ViTモデルの方が優れていた。
- 参考スコア(独自算出の注目度): 3.1083892213758104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crop and weed monitoring is an important challenge for agriculture and food
production nowadays. Thanks to recent advances in data acquisition and
computation technologies, agriculture is evolving to a more smart and precision
farming to meet with the high yield and high quality crop production.
Classification and recognition in Unmanned Aerial Vehicles (UAV) images are
important phases for crop monitoring. Advances in deep learning models relying
on Convolutional Neural Network (CNN) have achieved high performances in image
classification in the agricultural domain. Despite the success of this
architecture, CNN still faces many challenges such as high computation cost,
the need of large labelled datasets, ... Natural language processing's
transformer architecture can be an alternative approach to deal with CNN's
limitations. Making use of the self-attention paradigm, Vision Transformer
(ViT) models can achieve competitive or better results without applying any
convolution operations. In this paper, we adopt the self-attention mechanism
via the ViT models for plant classification of weeds and crops: red beet,
off-type beet (green leaves), parsley and spinach. Our experiments show that
with small set of labelled training data, ViT models perform better compared to
state-of-the-art CNN-based models EfficientNet and ResNet, with a top accuracy
of 99.8\% achieved by the ViT model.
- Abstract(参考訳): 作物と雑草のモニタリングは、近年農業と食料生産にとって重要な課題である。
近年のデータ取得と計算技術の発展により、農業はよりスマートで精密な農業へと進化し、高い収量と高品質の作物生産に対応している。
無人航空機(uav)画像の分類と認識は作物モニタリングの重要な段階である。
畳み込みニューラルネットワーク(cnn)に基づくディープラーニングモデルの進歩は、農業領域における画像分類において高いパフォーマンスを達成している。
このアーキテクチャの成功にもかかわらず、CNNは高い計算コスト、大きなラベル付きデータセットの必要性といった多くの課題に直面している。
自己注意パラダイムを利用することで、ViT(Vision Transformer)モデルは、畳み込み操作を適用することなく、競争またはより良い結果を得ることができる。
本稿では,雑草および作物の植物分類における植物分類のViTモデルによる自己保持機構(赤ビート,オフタイプビート(緑葉),パセリ,ホウレンソウ)を採用した。
実験の結果、ラベル付きトレーニングデータの小さなセットでは、vitモデルが最先端のcnnベースのモデルよりも優れたパフォーマンスを示し、vitモデルによる最高精度は99.8\%であった。
関連論文リスト
- Enhanced Droplet Analysis Using Generative Adversarial Networks [0.0]
本稿では,GAN(Generative Adversarial Network)を用いて,液滴の人工画像を生成する方法を提案する。
我々の知る限りでは、この研究は初めて、液滴の検出を増強するための生成モデルを用いたものである。
その重要性は、効率的な噴霧システムを構築するためにノズル設計を最適化することだけでなく、様々な精密農業作業において不十分なデータに対する共通の課題に対処することにある。
論文 参考訳(メタデータ) (2024-02-24T21:20:53Z) - SugarViT -- Multi-objective Regression of UAV Images with Vision
Transformers and Deep Label Distribution Learning Demonstrated on Disease
Severity Prediction in Sugar Beet [3.2925222641796554]
この研究は、大規模植物固有の特徴アノテーションを自動化するための機械学習フレームワークを導入する。
我々は、SugarViTと呼ばれる重症度評価のための効率的なビジョントランスフォーマーモデルを開発した。
この特殊なユースケースでモデルは評価されるが、様々な画像に基づく分類や回帰タスクにも可能な限り汎用的に適用可能である。
論文 参考訳(メタデータ) (2023-11-06T13:01:17Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Generative Adversarial Networks for Image Augmentation in Agriculture: A
Systematic Review [5.639656362091594]
2014年にコンピュータビジョンコミュニティで発明されたGAN(Generative Adversarial Network)は、優れたデータ表現を学習できる新しいアプローチスイートを提供する。
本稿では, GAN アーキテクチャの進化を概観するとともに, 農業への導入を体系的に検討する。
論文 参考訳(メタデータ) (2022-04-10T15:33:05Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Weed Recognition using Deep Learning Techniques on Class-imbalanced
Imagery [4.96981595868944]
我々は,最先端の5つのディープニューラルネットワークを調査し,雑草認識の性能評価を行った。
VGG16は小規模データセットで他より優れ、ResNet-50は大規模データセットで他のディープネットワークよりも優れていた。
論文 参考訳(メタデータ) (2021-12-15T01:00:05Z) - Enlisting 3D Crop Models and GANs for More Data Efficient and
Generalizable Fruit Detection [0.0]
本稿では,合成3次元作物モデルドメインから実世界の作物ドメインへの農業画像生成手法を提案する。
本手法は, 果実の位置と形状を保存するために, 意味的に制約されたGAN (generative adversarial network) を用いる。
ブドウ品種検出タスクにおける増分訓練実験により,本手法から生成した画像がドメインプロセスを大幅に高速化できることが判明した。
論文 参考訳(メタデータ) (2021-08-30T16:11:59Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Potato Crop Stress Identification in Aerial Images using Deep
Learning-based Object Detection [60.83360138070649]
本稿では, 深層ニューラルネットワークを用いたジャガイモの空中画像解析手法を提案する。
主な目的は、植物レベルでの健康作物とストレス作物の自動空間認識を実証することである。
実験により、フィールド画像中の健康植物とストレス植物を識別し、平均Dice係数0.74を達成できることを示した。
論文 参考訳(メタデータ) (2021-06-14T21:57:40Z) - Agriculture-Vision: A Large Aerial Image Database for Agricultural
Pattern Analysis [110.30849704592592]
本稿では,農業パターンのセマンティックセグメンテーションのための大規模空中農地画像データセットであるGarmry-Visionを提案する。
各画像はRGBと近赤外線(NIR)チャンネルで構成され、解像度は1ピクセルあたり10cmである。
農家にとって最も重要な9種類のフィールド異常パターンに注釈を付ける。
論文 参考訳(メタデータ) (2020-01-05T20:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。