論文の概要: Comparison between transformers and convolutional models for
fine-grained classification of insects
- arxiv url: http://arxiv.org/abs/2307.11112v1
- Date: Thu, 20 Jul 2023 10:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 14:49:54.814486
- Title: Comparison between transformers and convolutional models for
fine-grained classification of insects
- Title(参考訳): 昆虫の微細な分類のためのトランスフォーマーと畳み込みモデルの比較
- Authors: Rita Pucci, Vincent J. Kalkman, Dan Stowell
- Abstract要約: 私たちはInsectaの分類学クラスを考えます。
昆虫の識別は多くの生態系の基盤にある住民の1つであるため、生物多様性監視に不可欠である。
何十億もの画像が自動的に分類され、ディープニューラルネットワークアルゴリズムが、きめ細かいタスクのために研究されている主要なテクニックの1つです。
- 参考スコア(独自算出の注目度): 7.107353918348911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained classification is challenging due to the difficulty of finding
discriminatory features. This problem is exacerbated when applied to
identifying species within the same taxonomical class. This is because species
are often sharing morphological characteristics that make them difficult to
differentiate. We consider the taxonomical class of Insecta. The identification
of insects is essential in biodiversity monitoring as they are one of the
inhabitants at the base of many ecosystems. Citizen science is doing brilliant
work of collecting images of insects in the wild giving the possibility to
experts to create improved distribution maps in all countries. We have billions
of images that need to be automatically classified and deep neural network
algorithms are one of the main techniques explored for fine-grained tasks. At
the SOTA, the field of deep learning algorithms is extremely fruitful, so how
to identify the algorithm to use? We focus on Odonata and Coleoptera orders,
and we propose an initial comparative study to analyse the two best-known layer
structures for computer vision: transformer and convolutional layers. We
compare the performance of T2TViT, a fully transformer-base, EfficientNet, a
fully convolutional-base, and ViTAE, a hybrid. We analyse the performance of
the three models in identical conditions evaluating the performance per
species, per morph together with sex, the inference time, and the overall
performance with unbalanced datasets of images from smartphones. Although we
observe high performances with all three families of models, our analysis shows
that the hybrid model outperforms the fully convolutional-base and fully
transformer-base models on accuracy performance and the fully transformer-base
model outperforms the others on inference speed and, these prove the
transformer to be robust to the shortage of samples and to be faster at
inference time.
- Abstract(参考訳): 識別的特徴を見つけるのが難しいため、きめ細かい分類は難しい。
この問題は、同じ分類群内の種を特定することに適用されると悪化する。
これは種がしばしば形態的特徴を共有しており、区別が難しいためである。
我々はInsectaの分類学クラスを考える。
昆虫の識別は多くの生態系の基盤にある住民の1つであるため、生物多様性監視に不可欠である。
市民科学は、野生の昆虫の画像を収集し、専門家がすべての国で改良された分布地図を作成する可能性を秘めている。
何十億もの画像が自動的に分類され、ディープニューラルネットワークアルゴリズムが、きめ細かいタスクのために研究されている主要なテクニックの1つです。
SOTAでは、ディープラーニングアルゴリズムの分野は非常に実りが多いので、どのようにアルゴリズムを識別するか?
我々は,オドナタとコレオプテアの順序に着目し,コンピュータビジョンにおいてよく知られた2つの階層構造,トランスフォーマー層と畳み込み層を分析するための初期比較研究を提案する。
我々は,完全トランスフォーマーベースであるT2TViT,完全畳み込みベースであるEfficientNet,ハイブリッドであるViTAEの性能を比較した。
我々は,3つのモデルの性能を同一条件で分析し,性別,推論時間,およびスマートフォンからの画像のバランスの取れないデータセットを用いて,形態ごとの性能を評価する。
3種類のモデルすべてで高い性能を観察したが,本解析により,ハイブリッドモデルが完全畳み込みベースモデルおよび完全トランスフォーマベースモデルよりも精度において優れ,完全トランスフォーマベースモデルが推論速度において他モデルよりも優れており,トランスフォーマがサンプル不足に対して頑健であり,推論時間が速いことを証明した。
関連論文リスト
- Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文 参考訳(メタデータ) (2021-08-28T06:32:42Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。