論文の概要: Performance of computer vision algorithms for fine-grained classification using crowdsourced insect images
- arxiv url: http://arxiv.org/abs/2404.03474v1
- Date: Thu, 4 Apr 2024 14:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:41:45.460100
- Title: Performance of computer vision algorithms for fine-grained classification using crowdsourced insect images
- Title(参考訳): クラウドソーシングされた昆虫画像を用いた微粒化分類のためのコンピュータビジョンアルゴリズムの性能
- Authors: Rita Pucci, Vincent J. Kalkman, Dan Stowell,
- Abstract要約: 生物多様性のモニタリングや多くの生態系の基盤となるため、Insectaの種認識に重点を置いている。
深層畳み込みネットワーク(CNN)、視覚変換器(ViT)、局所性に基づく視覚変換器(LBVT)の9つのアルゴリズムの完全かつ詳細な評価を行う。
We found that the ViT are the best on inference speed and compute cost while the LBVT while the other performance on performance and embedded quality。
- 参考スコア(独自算出の注目度): 4.72048038055534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With fine-grained classification, we identify unique characteristics to distinguish among classes of the same super-class. We are focusing on species recognition in Insecta, as they are critical for biodiversity monitoring and at the base of many ecosystems. With citizen science campaigns, billions of images are collected in the wild. Once these are labelled, experts can use them to create distribution maps. However, the labelling process is time-consuming, which is where computer vision comes in. The field of computer vision offers a wide range of algorithms, each with its strengths and weaknesses; how do we identify the algorithm that is in line with our application? To answer this question, we provide a full and detailed evaluation of nine algorithms among deep convolutional networks (CNN), vision transformers (ViT), and locality-based vision transformers (LBVT) on 4 different aspects: classification performance, embedding quality, computational cost, and gradient activity. We offer insights that we haven't yet had in this domain proving to which extent these algorithms solve the fine-grained tasks in Insecta. We found that the ViT performs the best on inference speed and computational cost while the LBVT outperforms the others on performance and embedding quality; the CNN provide a trade-off among the metrics.
- Abstract(参考訳): きめ細かい分類では、同一のスーパークラスのクラスを区別する特徴を識別する。
生物多様性のモニタリングや多くの生態系の基盤となるため、Insectaの種認識に重点を置いている。
市民科学のキャンペーンでは、何十億もの画像が野生で収集されている。
ラベル付けされたら、専門家はこれらを使って配布マップを作成することができる。
しかし、ラベリングプロセスは時間がかかり、コンピュータビジョンが登場する。
コンピュータビジョンの分野は幅広いアルゴリズムを提供しており、それぞれに長所と短所がある。
そこで本研究では,CNN(Deep Convolutional Network),ViT(Vit),LBVT(Locality-based Vision Transformer)の9つのアルゴリズムについて,分類性能,埋め込み品質,計算コスト,勾配活動の4つの側面について,完全かつ詳細な評価を行った。
私たちは、これらのアルゴリズムがInsectaのきめ細かいタスクをどの程度解決しているかを、この領域でまだ証明していない洞察を提供しています。
We found that the ViT are the best on inference speed and compute cost while the LBVT while the other performance on performance and embedded quality; the CNN provide a trade-off among the metrics。
関連論文リスト
- Low Cost Machine Vision for Insect Classification [33.7054351451505]
本稿では,低コストでスケーラブルなオープンソースシステムとして開発されたマルチセンサシステムの一部として,イメージング手法を提案する。
このシステムは、同じ昆虫種16種と異なる属、家系、順序からなるデータセットで、例に評価される。
種間類似度の高い種を分類するためには,昆虫のイメージトリミングが必要であることが証明された。
論文 参考訳(メタデータ) (2024-04-26T15:43:24Z) - Democratizing Fine-grained Visual Recognition with Large Language Models [80.49811421427167]
画像から下位レベルのカテゴリを識別することは、コンピュータビジョンにおける長年の課題であり、きめ細かい視覚認識(FGVR)と呼ばれる。
FGVRシステムの開発における大きなボトルネックは、高品質なペアのエキスパートアノテーションの必要性によって引き起こされる。
本研究では,大規模言語モデル (LLM) の世界の知識をプロキシとして内部的に活用する,きめ細かなセマンティックカテゴリー推論(FineR)を提案する。
トレーニングフリーのFineRは、最先端のFGVRや言語、ビジョンアシスタントモデルより優れており、野生や新しい領域で働くことを約束しています。
論文 参考訳(メタデータ) (2024-01-24T22:28:26Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Comparison between transformers and convolutional models for
fine-grained classification of insects [7.107353918348911]
私たちはInsectaの分類学クラスを考えます。
昆虫の識別は多くの生態系の基盤にある住民の1つであるため、生物多様性監視に不可欠である。
何十億もの画像が自動的に分類され、ディープニューラルネットワークアルゴリズムが、きめ細かいタスクのために研究されている主要なテクニックの1つです。
論文 参考訳(メタデータ) (2023-07-20T10:00:04Z) - Wild Animal Classifier Using CNN [0.0]
畳み込みニューラルネットワーク(CNN)は、特定の入力を予測するために異なる重みを持つ複数の層を持つ。
画像セグメンテーションは、画像の関心領域の明確な区切りを提供する、そのような広く使われている画像処理手法である。
論文 参考訳(メタデータ) (2022-10-03T13:14:08Z) - A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective [71.03621840455754]
グラフニューラルネットワーク(GNN)はグラフ表現学習において勢いを増している。
Graph Transformerは、グラフ構造をTransformerアーキテクチャに組み込んで、局所的な近傍集約の制限を克服します。
本稿では,タスク指向の観点から,コンピュータビジョンにおけるGNNとグラフトランスフォーマーの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-09-27T08:10:14Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z) - Extending and Analyzing Self-Supervised Learning Across Domains [50.13326427158233]
近年,自己指導型表現学習が目覚ましい成果を上げている。
実験は主にImageNetや他の同様の大規模なインターネット画像データセット上で行われる。
我々は、前例のない様々なドメインで、いくつかのポピュラーな手法を実験した。
論文 参考訳(メタデータ) (2020-04-24T21:18:02Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。