論文の概要: Fine-Grained Cat Breed Recognition with Global Context Vision Transformer
- arxiv url: http://arxiv.org/abs/2602.07534v1
- Date: Sat, 07 Feb 2026 13:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.676155
- Title: Fine-Grained Cat Breed Recognition with Global Context Vision Transformer
- Title(参考訳): グローバル・コンテクスト・ビジョン・トランスを用いた細粒猫の育種認識
- Authors: Mowmita Parvin Hera, Md. Shahriar Mahmud Kallol, Shohanur Rahman Nirob, Md. Badsha Bulbul, Jubayer Ahmed, M. Zhourul Islam, Hazrat Ali, Mohammmad Farhad Bulbul,
- Abstract要約: 我々は,オックスフォード-IIIT Petデータセットのサブセットを用いて,ネコ種を分類する深層学習に基づくアプローチを提案する。
我々は,猫の品種認識にGCViT(Global Context Vision Transformer)アーキテクチャティニーを用いた。
- 参考スコア(独自算出の注目度): 1.2554129265335305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate identification of cat breeds from images is a challenging task due to subtle differences in fur patterns, facial structure, and color. In this paper, we present a deep learning-based approach for classifying cat breeds using a subset of the Oxford-IIIT Pet Dataset, which contains high-resolution images of various domestic breeds. We employed the Global Context Vision Transformer (GCViT) architecture-tiny for cat breed recognition. To improve model generalization, we used extensive data augmentation, including rotation, horizontal flipping, and brightness adjustment. Experimental results show that the GCViT-Tiny model achieved a test accuracy of 92.00% and validation accuracy of 94.54%. These findings highlight the effectiveness of transformer-based architectures for fine-grained image classification tasks. Potential applications include veterinary diagnostics, animal shelter management, and mobile-based breed recognition systems. We also provide a hugging face demo at https://huggingface.co/spaces/bfarhad/cat-breed-classifier.
- Abstract(参考訳): 画像から猫の正確な識別は、毛皮のパターン、顔の構造、色に微妙な違いがあるため、難しい課題である。
本稿では, ネコの種を分類する深層学習に基づくアプローチとして, 各種家畜の高解像度画像を含むOxford-IIIT Pet Datasetのサブセットについて述べる。
我々は,猫の品種認識にGCViT(Global Context Vision Transformer)アーキテクチャティニーを用いた。
モデル一般化を改善するために、回転、水平反転、明るさ調整を含む広範囲なデータ拡張を用いた。
実験の結果、GCViT-Tinyモデルは92.00%、検証精度94.54%に達した。
これらの結果は,微細な画像分類作業におけるトランスフォーマーアーキテクチャの有効性を浮き彫りにした。
潜在的な応用としては、獣医の診断、動物保護施設の管理、および移動型品種認識システムがある。
また、https://huggingface.co/spaces/bfarhad/cat-breed-classifier.comで抱きしめる顔のデモも提供しています。
関連論文リスト
- Semantic Style Transfer for Enhancing Animal Facial Landmark Detection [0.3186130813218338]
スタイル転送は、構造的内容を保持しながら、ある画像の視覚的特徴を別の画像に適用する技法である。
本研究は,動物顔のランドマーク検出訓練の強化にこの技術を用いることを検討した。
フルボディ画像ではなく、トリミングされた顔画像へのスタイル転送を適用することで、構造的一貫性が向上する。
Supervised Style Transfer (SST) - ランドマーク精度に基づいてスタイルソースを選択するもので、ベースライン精度の98%を維持している。
論文 参考訳(メタデータ) (2025-05-08T20:48:15Z) - Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Effective Data Augmentation With Diffusion Models [45.18188726287581]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Data Augmentation Vision Transformer for Fine-grained Image
Classification [1.6211899643913996]
本稿では,データ拡張に基づくデータ拡張ビジョントランス (DAVT) を提案する。
また,階層的注意選択(HAS)手法を提案し,学習レベル間の識別マーカーの識別能力を向上させる。
実験結果から,CUB-200-2011とStanford Dogsの2つの一般データセットにおける本手法の精度は,従来の主流手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-11-23T11:34:11Z) - Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文 参考訳(メタデータ) (2021-08-28T06:32:42Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z) - Automatic Detection and Recognition of Individuals in Patterned Species [4.163860911052052]
我々は,異なるパターンの個体の自動検出と認識のための枠組みを開発する。
我々は最近提案したFaster-RCNNオブジェクト検出フレームワークを用いて画像中の動物を効率的に検出する。
我々は,シマウマおよびジャガー画像の認識システムを評価し,他のパターンの種への一般化を示す。
論文 参考訳(メタデータ) (2020-05-06T15:29:21Z) - Automatic image-based identification and biomass estimation of
invertebrates [70.08255822611812]
時間を要する分類と分類は、どれだけの昆虫を処理できるかに強い制限を課す。
我々は、人間の専門家による分類と識別の標準的な手動アプローチを、自動画像ベース技術に置き換えることを提案する。
分類タスクには最先端のResnet-50とInceptionV3 CNNを使用する。
論文 参考訳(メタデータ) (2020-02-05T21:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。