Fugu-MT 論文翻訳(概要): Vision Transformers For Weeds and Crops Classification Of High Resolution UAV Images

論文の概要: Vision Transformers For Weeds and Crops Classification Of High Resolution UAV Images

arxiv url: http://arxiv.org/abs/2109.02716v1
Date: Mon, 6 Sep 2021 19:58:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-09 02:09:46.720479
Title: Vision Transformers For Weeds and Crops Classification Of High Resolution UAV Images
Title（参考訳）: 高分解能uav画像の雑草・作物分類のための視覚トランスフォーマー
Authors: Reenul Reedha, Eric Dericquebourg, Raphael Canals, Adel Hafiane
Abstract要約: ビジョントランスフォーマー(ViT)モデルは、畳み込み操作を適用することなく、競争またはより良い結果を達成することができる。実験の結果,ラベル付きトレーニングデータでは,最新のCNNモデルと比較して,ViTモデルの方が優れていた。
参考スコア（独自算出の注目度）: 3.1083892213758104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Crop and weed monitoring is an important challenge for agriculture and food production nowadays. Thanks to recent advances in data acquisition and computation technologies, agriculture is evolving to a more smart and precision farming to meet with the high yield and high quality crop production. Classification and recognition in Unmanned Aerial Vehicles (UAV) images are important phases for crop monitoring. Advances in deep learning models relying on Convolutional Neural Network (CNN) have achieved high performances in image classification in the agricultural domain. Despite the success of this architecture, CNN still faces many challenges such as high computation cost, the need of large labelled datasets, ... Natural language processing's transformer architecture can be an alternative approach to deal with CNN's limitations. Making use of the self-attention paradigm, Vision Transformer (ViT) models can achieve competitive or better results without applying any convolution operations. In this paper, we adopt the self-attention mechanism via the ViT models for plant classification of weeds and crops: red beet, off-type beet (green leaves), parsley and spinach. Our experiments show that with small set of labelled training data, ViT models perform better compared to state-of-the-art CNN-based models EfficientNet and ResNet, with a top accuracy of 99.8\% achieved by the ViT model.
Abstract（参考訳）: 作物と雑草のモニタリングは、近年農業と食料生産にとって重要な課題である。近年のデータ取得と計算技術の発展により、農業はよりスマートで精密な農業へと進化し、高い収量と高品質の作物生産に対応している。無人航空機(uav)画像の分類と認識は作物モニタリングの重要な段階である。畳み込みニューラルネットワーク(cnn)に基づくディープラーニングモデルの進歩は、農業領域における画像分類において高いパフォーマンスを達成している。このアーキテクチャの成功にもかかわらず、CNNは高い計算コスト、大きなラベル付きデータセットの必要性といった多くの課題に直面している。自己注意パラダイムを利用することで、ViT(Vision Transformer)モデルは、畳み込み操作を適用することなく、競争またはより良い結果を得ることができる。本稿では,雑草および作物の植物分類における植物分類のViTモデルによる自己保持機構(赤ビート,オフタイプビート(緑葉),パセリ,ホウレンソウ)を採用した。実験の結果、ラベル付きトレーニングデータの小さなセットでは、vitモデルが最先端のcnnベースのモデルよりも優れたパフォーマンスを示し、vitモデルによる最高精度は99.8\%であった。

関連論文リスト

Vision Transformers in Precision Agriculture: A Comprehensive Survey [3.156133122658662]
ViT(Vision Transformers)は、長距離依存の処理の改善や視覚タスクのスケーラビリティ向上といったメリットを提供する。本調査では, 精密農業へのViTsの適用について検討し, 分類から検出, セグメンテーションまで, タスクをカバーした。
論文参考訳（メタデータ） (2025-04-30T14:50:02Z)
Rice Leaf Disease Detection: A Comparative Study Between CNN, Transformer and Non-neural Network Architectures [1.534667887016089]
バングラデシュの葉病検出のためのコンピュータビジョン技術について検討した。テストされたモデルの中で、ResNet50は他のCNNやトランスフォーマーベースのモデルよりも最高のパフォーマンスを示した。
論文参考訳（メタデータ） (2025-01-12T07:29:52Z)
GenFormer -- Generated Images are All You Need to Improve Robustness of Transformers on Small Datasets [11.343905946690352]
我々は、生成した画像を利用したデータ拡張戦略であるGenFormerを提案し、小型画像分類タスクにおける変換器の精度とロバスト性を改善する。総合評価では、Tiny ImageNetの新たなテストセットとして、Tiny ImageNetV2, -R, -Aを提案する。我々は,訓練データに制限のある困難条件下でのアプローチの有効性を実証し,精度と堅牢性の両方において有意な改善が示された。
論文参考訳（メタデータ） (2024-08-26T09:26:08Z)
Enhanced Infield Agriculture with Interpretable Machine Learning Approaches for Crop Classification [0.49110747024865004]
本研究では、SIFT、ORB、Color Histogramなどの手作り特徴抽出手法を用いた従来のML、カスタムデザインCNN、AlexNetのようなDLアーキテクチャの確立、ImageNetを用いて事前訓練された5つのモデルの移行学習の4つの異なる分類手法を評価する。 Xceptionはこれら全てを一般化し、80.03MBのモデルサイズと0.0633秒の予測時間で98%の精度を達成した。
論文参考訳（メタデータ） (2024-08-22T14:20:34Z)
Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文参考訳（メタデータ） (2024-08-12T07:03:35Z)
Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。 CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文参考訳（メタデータ） (2024-07-28T11:52:36Z)
Generating Diverse Agricultural Data for Vision-Based Farming Applications [74.79409721178489]
このモデルは, 植物の成長段階, 土壌条件の多様性, 照明条件の異なるランダム化フィールド配置をシミュレートすることができる。我々のデータセットにはセマンティックラベル付き12,000の画像が含まれており、精密農業におけるコンピュータビジョンタスクの包括的なリソースを提供する。
論文参考訳（メタデータ） (2024-03-27T08:42:47Z)
SugarViT -- Multi-objective Regression of UAV Images with Vision Transformers and Deep Label Distribution Learning Demonstrated on Disease Severity Prediction in Sugar Beet [3.2925222641796554]
この研究は、大規模植物固有の特徴アノテーションを自動化するための機械学習フレームワークを導入する。我々は、SugarViTと呼ばれる重症度評価のための効率的なビジョントランスフォーマーモデルを開発した。この特殊なユースケースでモデルは評価されるが、様々な画像に基づく分類や回帰タスクにも可能な限り汎用的に適用可能である。
論文参考訳（メタデータ） (2023-11-06T13:01:17Z)
Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (2022-08-08T09:08:40Z)
Generative Adversarial Networks for Image Augmentation in Agriculture: A Systematic Review [5.639656362091594]
2014年にコンピュータビジョンコミュニティで発明されたGAN(Generative Adversarial Network)は、優れたデータ表現を学習できる新しいアプローチスイートを提供する。本稿では, GAN アーキテクチャの進化を概観するとともに, 農業への導入を体系的に検討する。
論文参考訳（メタデータ） (2022-04-10T15:33:05Z)
Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。本稿では,画像の高周波成分を直接補うHATを提案する。 HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文参考訳（メタデータ） (2022-04-03T05:16:51Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Agriculture-Vision: A Large Aerial Image Database for Agricultural Pattern Analysis [110.30849704592592]
本稿では,農業パターンのセマンティックセグメンテーションのための大規模空中農地画像データセットであるGarmry-Visionを提案する。各画像はRGBと近赤外線(NIR)チャンネルで構成され、解像度は1ピクセルあたり10cmである。農家にとって最も重要な9種類のフィールド異常パターンに注釈を付ける。
論文参考訳（メタデータ） (2020-01-05T20:19:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。