論文の概要: Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers
- arxiv url: http://arxiv.org/abs/2507.21364v1
- Date: Mon, 28 Jul 2025 22:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.361094
- Title: Evaluating Deep Learning Models for African Wildlife Image Classification: From DenseNet to Vision Transformers
- Title(参考訳): アフリカ野生生物画像分類のためのディープラーニングモデルの評価:DenseNetからビジョントランスフォーマーへ
- Authors: Lukman Jibril Aliyu, Umar Sani Muhammad, Bilqisu Ismail, Nasiru Muhammad, Almustapha A Wakili, Seid Muhie Yimam, Shamsuddeen Hassan Muhammad, Mustapha Abdullahi,
- Abstract要約: アフリカの野生生物は深刻な脅威に直面しており、過去50年間で脊椎動物の数は65%以上減少している。
これに対し,ディープラーニングを用いた画像分類は,生物多様性のモニタリングと保存のための有望なツールとして出現している。
本稿では,アフリカの野生生物画像の自動分類のためのディープラーニングモデルの比較研究を行う。
- 参考スコア(独自算出の注目度): 3.4801331938495705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wildlife populations in Africa face severe threats, with vertebrate numbers declining by over 65% in the past five decades. In response, image classification using deep learning has emerged as a promising tool for biodiversity monitoring and conservation. This paper presents a comparative study of deep learning models for automatically classifying African wildlife images, focusing on transfer learning with frozen feature extractors. Using a public dataset of four species: buffalo, elephant, rhinoceros, and zebra; we evaluate the performance of DenseNet-201, ResNet-152, EfficientNet-B4, and Vision Transformer ViT-H/14. DenseNet-201 achieved the best performance among convolutional networks (67% accuracy), while ViT-H/14 achieved the highest overall accuracy (99%), but with significantly higher computational cost, raising deployment concerns. Our experiments highlight the trade-offs between accuracy, resource requirements, and deployability. The best-performing CNN (DenseNet-201) was integrated into a Hugging Face Gradio Space for real-time field use, demonstrating the feasibility of deploying lightweight models in conservation settings. This work contributes to African-grounded AI research by offering practical insights into model selection, dataset preparation, and responsible deployment of deep learning tools for wildlife conservation.
- Abstract(参考訳): アフリカの野生生物は深刻な脅威に直面しており、過去50年間で脊椎動物の数は65%以上減少している。
これに対し,ディープラーニングを用いた画像分類は,生物多様性のモニタリングと保存のための有望なツールとして出現している。
本稿では,アフリカの野生動物画像の自動分類のためのディープラーニングモデルの比較研究を行い,凍結した特徴抽出器を用いた移動学習に着目した。
DenseNet-201, ResNet-152, EfficientNet-B4, Vision Transformer ViT-H/14。
DenseNet-201は畳み込みネットワークの中で最高の性能(67%の精度)を達成し、ViT-H/14は全体の99%の精度を達成した。
私たちの実験では、正確性、リソース要件、デプロイ可能性の間のトレードオフを強調しています。
最高のパフォーマンスを持つCNN(DenseNet-201)は、リアルタイムフィールド使用のためにHugging Face Gradio Spaceに統合され、保護設定に軽量モデルをデプロイする可能性を示している。
この研究は、モデル選択、データセットの準備、野生生物保護のためのディープラーニングツールのデプロイに関する実践的な洞察を提供することで、アフリカにおけるAI研究に貢献している。
関連論文リスト
- Enhanced Infield Agriculture with Interpretable Machine Learning Approaches for Crop Classification [0.49110747024865004]
本研究では、SIFT、ORB、Color Histogramなどの手作り特徴抽出手法を用いた従来のML、カスタムデザインCNN、AlexNetのようなDLアーキテクチャの確立、ImageNetを用いて事前訓練された5つのモデルの移行学習の4つの異なる分類手法を評価する。
Xceptionはこれら全てを一般化し、80.03MBのモデルサイズと0.0633秒の予測時間で98%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-22T14:20:34Z) - Transfer Learning for Wildlife Classification: Evaluating YOLOv8 against DenseNet, ResNet, and VGGNet on a Custom Dataset [0.0]
この研究は、データセット上で事前学習されたモデルを微調整するために転送学習を利用する。
YOLOv8は他のモデルより優れており、トレーニング精度97.39%、バリデーションF1スコア96.50%である。
論文 参考訳(メタデータ) (2024-07-10T15:03:00Z) - Comparing Male Nyala and Male Kudu Classification using Transfer
Learning with ResNet-50 and VGG-16 [0.0]
本稿では,プレトレーニングモデル,特にVGG-16およびResNet-50モデルの自然環境におけるオスのクドゥとオスのニヤラの同定における効率について検討する。
実験結果はVGG-16とResNet-50でそれぞれ93.2%と97.7%の精度を達成し、微調整後に両モデルで97.7%を達成した。
論文 参考訳(メタデータ) (2023-11-10T10:43:46Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Zoo-Tuning: Adaptive Transfer from a Zoo of Models [82.9120546160422]
Zoo-Tuningは、事前訓練されたモデルのパラメータをターゲットタスクに適応的に転送することを学ぶ。
我々は、強化学習、画像分類、顔のランドマーク検出など、様々なタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-29T14:09:45Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - How many images do I need? Understanding how sample size per class
affects deep learning model performance metrics for balanced designs in
autonomous wildlife monitoring [0.0]
本研究では,各クラス(種目)のサンプルサイズを段階的に増加させるために,ディープラーニングモデルの性能に関する課題を深く検討する。
我々は,動物種毎の画像の精度を推定するための近似式を生態学者に提供する。
論文 参考訳(メタデータ) (2020-10-16T06:28:35Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。