論文の概要: Bag of Tricks for Long-Tail Visual Recognition of Animal Species in
Camera Trap Images
- arxiv url: http://arxiv.org/abs/2206.12458v1
- Date: Fri, 24 Jun 2022 18:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:20:52.531861
- Title: Bag of Tricks for Long-Tail Visual Recognition of Animal Species in
Camera Trap Images
- Title(参考訳): カメラトラップ画像における動物種の長期視覚認識のためのトリックの袋
- Authors: Fagner Cunha, Eulanda M. dos Santos, Juan G. Colonna
- Abstract要約: 近年,カメラトラップ画像における動物種の長期的視覚認識に対処する手法が提案されている。
一般に、平方根サンプリングは、マイノリティクラスの性能を約10%向上させる方法であった。
提案手法は, テール級の性能と, ヘッド級の精度との最良のトレードオフを達成した。
- 参考スコア(独自算出の注目度): 2.294014185517203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera traps are a strategy for monitoring wildlife that collects a large
number of pictures. The number of images collected from each species usually
follows a long-tail distribution, i.e., a few classes have a large number of
instances while a lot of species have just a small percentage. Although in most
cases these rare species are the classes of interest to ecologists, they are
often neglected when using deep learning models because these models require a
large number of images for the training. In this work, we systematically
evaluate recently proposed techniques - namely, square-root re-sampling,
class-balanced focal loss, and balanced group softmax - to address the
long-tail visual recognition of animal species in camera trap images. To
achieve a more general conclusion, we evaluated the selected methods on four
families of computer vision models (ResNet, MobileNetV3, EfficientNetV2, and
Swin Transformer) and four camera trap datasets with different characteristics.
Initially, we prepared a robust baseline with the most recent training tricks
and then we applied the methods for improving long-tail recognition. Our
experiments show that the Swin transformer can reach high performance for rare
classes without applying any additional method for handling imbalance, with an
overall accuracy of 88.76% for WCS dataset and 94.97% for Snapshot Serengeti,
considering a location-based train/test split. In general, the square-root
sampling was the method that most improved the performance for minority classes
by around 10%, but at the cost of reducing the majority classes accuracy at
least 4%. These results motivated us to propose a simple and effective approach
using an ensemble combining square-root sampling and the baseline. The proposed
approach achieved the best trade-off between the performance of the tail class
and the cost of the head classes' accuracy.
- Abstract(参考訳): カメラトラップは、多数の写真を集める野生生物を監視するための戦略である。
それぞれの種から収集された画像の数は、通常、ロングテール分布に従う。例えば、いくつかのクラスは、多数のインスタンスを持ち、多くの種は、ほんのわずかなパーセンテージしか持たない。
ほとんどの場合、これらの希少種は生態学者にとって関心のクラスであるが、これらのモデルは訓練のために大量の画像を必要とするため、深層学習モデルを使用する際に無視されることが多い。
そこで本研究では,近年提案されている二乗根再サンプリング法,クラスバランス焦点損失法,バランスグループソフトマックス法を体系的に評価し,カメラトラップ画像における動物種の長期視覚認識について検討した。
より一般的な結論を得るために,コンピュータビジョンモデル(ResNet, MobileNetV3, EfficientNetV2, Swin Transformer)の4つのファミリーと,異なる特徴を持つ4つのカメラトラップデータセットについて,選択した手法の評価を行った。
まず,最新のトレーニング手法を用いてロバストなベースラインを作成し,その後,ロングテール認識の改善手法を適用した。
実験の結果,Swin変換器は不均衡処理のための追加手法を適用せずに,WCSデータセットが88.76%,Snapshot Serengetiが94.97%,位置ベーストレイン/テスト分割が考慮されている。
一般に、正方根サンプリングはマイノリティクラスのパフォーマンスを10%程度向上させる手法であるが、多数派クラスの精度を少なくとも4%低下させるコストがかかる。
これらの結果から,正方根サンプリングとベースラインを組み合わせたアンサンブルを用いた簡便で効果的なアプローチを提案する。
提案手法はテールクラスの性能とヘッドクラスの精度のコストのトレードオフを最善に達成した。
関連論文リスト
- Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - PrototypeFormer: Learning to Explore Prototype Relationships for
Few-shot Image Classification [19.93681871684493]
本稿では,従来の画像分類手法であるPrototypeFormerを提案する。
本稿では,プロトタイプ抽出モジュールの構築にトランスフォーマーアーキテクチャを用い,より識別性の高いクラス表現の抽出を目的とした。
その単純さにもかかわらず、ベルや笛を使わずに驚くほどうまく機能する。
論文 参考訳(メタデータ) (2023-10-05T12:56:34Z) - LCReg: Long-Tailed Image Classification with Latent Categories based
Recognition [81.5551335554507]
本稿では,Lar-tail Recognition(LCReg)法を提案する。
我々の仮説は、頭と尾のクラスで共有される一般的な潜伏的特徴は、特徴表現を改善するために使用できるというものである。
具体的には、頭と尾の両方で共有されるクラス非依存の潜伏特徴の集合を学習し、潜伏特徴のセマンティックデータ拡張を用いてトレーニングサンプルの多様性を暗黙的に増加させる。
論文 参考訳(メタデータ) (2023-09-13T02:03:17Z) - Rare Wildlife Recognition with Self-Supervised Representation Learning [0.0]
本稿では,自己指導型プレトレーニングに頼って,必要なトレーニングデータの量を削減する手法を提案する。
MoCo, CLD, および幾何拡張の組み合わせは, ImageNetで事前訓練された従来のモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-29T17:57:38Z) - CropMix: Sampling a Rich Input Distribution via Multi-Scale Cropping [97.05377757299672]
そこで本研究では,元のデータセット分布からリッチな入力分布を生成するための簡単なCropMixを提案する。
CropMixは、分類タスクを実行するトレーニングレシピやニューラルネットワークアーキテクチャにシームレスに適用することができる。
CropMixは、より強力な表現に向けて、対照的な学習とマスクされた画像モデリングの両方に利益があることを示す。
論文 参考訳(メタデータ) (2022-05-31T16:57:28Z) - Two-phase training mitigates class imbalance for camera trap image
classification with CNNs [17.905795249216805]
マイノリティクラスのパフォーマンス向上には2段階のトレーニングを使用します。
多数決アンサンプに基づく2段階トレーニングでは,クラス固有のF1スコアが最大3.0%増加することがわかった。
また,F1スコアの平均値が6.1%のオーバーサンプリングやアンダーサンプリングのみを用いた2相トレーニングでは,2相トレーニングが優れていた。
論文 参考訳(メタデータ) (2021-12-29T10:47:45Z) - Self-Supervised Pretraining and Controlled Augmentation Improve Rare
Wildlife Recognition in UAV Images [9.220908533011068]
本稿では,自己指導型プレトレーニングに頼って,必要なトレーニングデータの量を削減する手法を提案する。
MoCo, CLD, および幾何拡張の組み合わせは, ImageNet 上で事前学習された従来のモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-08-17T12:14:28Z) - Few-Shot Learning with Part Discovery and Augmentation from Unlabeled
Images [79.34600869202373]
帰納的バイアスは、ラベルなし画像の平坦な集合から学習でき、目に見えるクラスと目に見えないクラスの間で伝達可能な表現としてインスタンス化されることを示す。
具体的には、トランスファー可能な表現を学習するための、新しいパートベース自己教師型表現学習手法を提案する。
我々の手法は印象的な結果をもたらし、それまでの最高の教師なし手法を7.74%、9.24%上回った。
論文 参考訳(メタデータ) (2021-05-25T12:22:11Z) - ResLT: Residual Learning for Long-tailed Recognition [64.19728932445523]
本稿では,パラメータ空間の側面から,より基本的なロングテール認識の視点を提案する。
すべてのクラスから画像を認識するために最適化されたメインブランチと、medium+tailクラスとtailクラスからのイメージを強化するために徐々に2つの残りのブランチを融合して最適化する。
我々は、CIFAR-10、CIFAR-100、Places、ImageNet、iNaturalist 2018の長期バージョンであるいくつかのベンチマークでこの方法をテストする。
論文 参考訳(メタデータ) (2021-01-26T08:43:50Z) - Two-View Fine-grained Classification of Plant Species [66.75915278733197]
本研究では,2視点の葉のイメージ表現に基づく新しい手法と,植物種の粒度認識のための階層的分類戦略を提案する。
シームズ畳み込みニューラルネットワークに基づく深度測定は、多数のトレーニングサンプルへの依存を減らし、新しい植物種に拡張性を持たせるために用いられる。
論文 参考訳(メタデータ) (2020-05-18T21:57:47Z) - Automatic Detection and Recognition of Individuals in Patterned Species [4.163860911052052]
我々は,異なるパターンの個体の自動検出と認識のための枠組みを開発する。
我々は最近提案したFaster-RCNNオブジェクト検出フレームワークを用いて画像中の動物を効率的に検出する。
我々は,シマウマおよびジャガー画像の認識システムを評価し,他のパターンの種への一般化を示す。
論文 参考訳(メタデータ) (2020-05-06T15:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。