論文の概要: Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection
- arxiv url: http://arxiv.org/abs/2109.00891v1
- Date: Sat, 28 Aug 2021 06:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-05 08:56:22.384218
- Title: Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection
- Title(参考訳): 生成型adversarial networkと顔ランドマーク検出による細粒度画像分類
- Authors: Mahdi Darvish, Mahsa Pouramini, Hamid Bahador
- Abstract要約: GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained classification remains a challenging task because distinguishing
categories needs learning complex and local differences. Diversity in the pose,
scale, and position of objects in an image makes the problem even more
difficult. Although the recent Vision Transformer models achieve high
performance, they need an extensive volume of input data. To encounter this
problem, we made the best use of GAN-based data augmentation to generate extra
dataset instances. Oxford-IIIT Pets was our dataset of choice for this
experiment. It consists of 37 breeds of cats and dogs with variations in scale,
poses, and lighting, which intensifies the difficulty of the classification
task. Furthermore, we enhanced the performance of the recent Generative
Adversarial Network (GAN), StyleGAN2-ADA model to generate more realistic
images while preventing overfitting to the training set. We did this by
training a customized version of MobileNetV2 to predict animal facial
landmarks; then, we cropped images accordingly. Lastly, we combined the
synthetic images with the original dataset and compared our proposed method
with standard GANs augmentation and no augmentation with different subsets of
training data. We validated our work by evaluating the accuracy of fine-grained
image classification on the recent Vision Transformer (ViT) Model.
- Abstract(参考訳): カテゴリーを区別するには複雑で局所的な違いを学習する必要があるため、きめ細かい分類は依然として難しい課題である。
画像内のオブジェクトのポーズ、スケール、位置の多様性は、問題をさらに難しくします。
最近のVision Transformerモデルは高い性能を実現するが、大量の入力データが必要である。
この問題に対処するため、GANベースのデータ拡張を最大限活用して、余分なデータセットインスタンスを生成しました。
Oxford-IIIT Petsはこの実験で選択したデータセットです。
規模、ポーズ、照明のバリエーションがある37種類の猫と犬で構成されており、分類作業の難しさを高めている。
さらに,最近のGAN(Generative Adversarial Network)であるStyleGAN2-ADAモデルの性能を向上し,トレーニングセットへの過度な適合を防止しつつ,よりリアルな画像を生成する。
私たちは、動物の顔のランドマークを予測するために、MobileNetV2のカスタマイズバージョンをトレーニングしました。
最後に、合成画像を元のデータセットと組み合わせ、提案手法を標準のGANに比較し、トレーニングデータの異なるサブセットで拡張しない。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
関連論文リスト
- Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation [8.777277201807351]
本報告では,SaSPA: Structure and Subject Preserving Augmentationについて述べる。
本手法では, 実画像をガイダンスとして使用せず, 生成の柔軟性を高め, 多様性を高める。
従来のデータ拡張手法と最近のデータ拡張手法の両方に対して、広範な実験を行い、SaSPAをベンチマークする。
論文 参考訳(メタデータ) (2024-06-20T17:58:30Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。
我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文 参考訳(メタデータ) (2021-08-04T14:51:37Z) - Exploring Vision Transformers for Fine-grained Classification [0.0]
アーキテクチャ変更を必要とせずに情報領域をローカライズする,きめ細かな画像分類タスクのための多段階ViTフレームワークを提案する。
CUB-200-2011,Stanford Cars,Stanford Dogs,FGVC7 Plant Pathologyの4つのベンチマークを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-19T23:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。