論文の概要: Mask Usage Recognition using Vision Transformer with Transfer Learning
and Data Augmentation
- arxiv url: http://arxiv.org/abs/2203.11542v1
- Date: Tue, 22 Mar 2022 08:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 02:31:00.547934
- Title: Mask Usage Recognition using Vision Transformer with Transfer Learning
and Data Augmentation
- Title(参考訳): 伝達学習とデータ拡張を用いた視覚トランスフォーマによるマスク使用認識
- Authors: Hensel Donato Jahja, Novanto Yudistira, Sutrisno
- Abstract要約: MaskedFace-Netは、Mask、Mask Chin、Mask Mouth Chin、Mask Nose Mouthという4つのクラスラベルを持つ137016のデジタルイメージからなる適切なデータセットである。
本研究は,ViT Huge-14を用いた転帰学習と増補が最適であることを示した。
本研究では、データ拡張トランスファー学習を用いたViTモデルのトレーニングにより、畳み込みベースのResidual Network(ResNet)よりもマスク使用率の分類が向上することを示す。
- 参考スコア(独自算出の注目度): 2.191505742658975
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The COVID-19 pandemic has disrupted various levels of society. The use of
masks is essential in preventing the spread of COVID-19 by identifying an image
of a person using a mask. Although only 23.1% of people use masks correctly,
Artificial Neural Networks (ANN) can help classify the use of good masks to
help slow the spread of the Covid-19 virus. However, it requires a large
dataset to train an ANN that can classify the use of masks correctly.
MaskedFace-Net is a suitable dataset consisting of 137016 digital images with 4
class labels, namely Mask, Mask Chin, Mask Mouth Chin, and Mask Nose Mouth.
Mask classification training utilizes Vision Transformers (ViT) architecture
with transfer learning method using pre-trained weights on ImageNet-21k, with
random augmentation. In addition, the hyper-parameters of training of 20
epochs, an Stochastic Gradient Descent (SGD) optimizer with a learning rate of
0.03, a batch size of 64, a Gaussian Cumulative Distribution (GeLU) activation
function, and a Cross-Entropy loss function are used to be applied on the
training of three architectures of ViT, namely Base-16, Large-16, and Huge-14.
Furthermore, comparisons of with and without augmentation and transfer learning
are conducted. This study found that the best classification is transfer
learning and augmentation using ViT Huge-14. Using this method on
MaskedFace-Net dataset, the research reaches an accuracy of 0.9601 on training
data, 0.9412 on validation data, and 0.9534 on test data. This research shows
that training the ViT model with data augmentation and transfer learning
improves classification of the mask usage, even better than convolutional-based
Residual Network (ResNet).
- Abstract(参考訳): 新型コロナウイルスのパンデミックは様々な社会を混乱させた。
マスクの使用は、マスクを使用する人のイメージを識別することにより、新型コロナウイルスの拡散を防ぐ上で不可欠である。
23.1%しかマスクを正しく使用していないが、CNN(Artificial Neural Networks)は、Covid-19ウイルスの拡散を遅らせるために優れたマスクの使用を分類するのに役立っている。
しかし、マスクの使用を正しく分類できるANNをトレーニングするには、大規模なデータセットが必要である。
maskedface-netは,マスク,マスクチン,マスクマウスチン,マスクノーズマウスの4種類のラベルを持つ137016のデジタルイメージからなる,適切なデータセットである。
Mask 分類トレーニングでは,ImageNet-21k 上の事前学習重みを用いたトランスファー学習手法を用いた視覚変換器 (ViT) アーキテクチャを用いる。
さらに、20エポックのトレーニングのハイパーパラメータ、学習率0.03の確率勾配(SGD)オプティマイザ、バッチサイズ64のバッチサイズ、ガウス累積分布(GeLU)アクティベーション関数、およびクロスエントロピー損失関数を用いて、ViTの3つのアーキテクチャ(Base-16, Large-16, Huge-14)のトレーニングに適用する。
さらに,増補学習と転帰学習との比較を行った。
本研究は,ViT Huge-14を用いた転帰学習と増補が最適であることを示した。
MaskedFace-Netデータセット上のこの手法を用いて、トレーニングデータでは0.9601、検証データでは0.9412、テストデータでは0.9534に達する。
本研究では,データ拡張と転送学習によるvitモデルのトレーニングにより,畳み込み型残差ネットワーク(resnet)よりもマスク使用の分類が向上することを示す。
関連論文リスト
- Facial Emotion Recognition Under Mask Coverage Using a Data Augmentation
Technique [0.0]
異なる顔マスクを着用している個人からの感情を認識できる顔感情認識システムを提案する。
移動学習を用いて学習した4つの畳み込みニューラルネットワークの有効性を評価した。
Resnet50は優れた性能を示しており、人依存モードは73.68%、人依存モードは59.57%である。
論文 参考訳(メタデータ) (2023-12-03T09:50:46Z) - A transfer learning approach with convolutional neural network for Face
Mask Detection [0.30693357740321775]
本稿では,トランスファー学習とインセプションv3アーキテクチャに基づくマスク認識システムを提案する。
マスクやマスクのない顔に加えて、マスクの誤用も検出できる。
論文 参考訳(メタデータ) (2023-10-29T07:38:33Z) - Fast Training of Diffusion Models with Masked Transformers [107.77340216247516]
マスク付き変圧器を用いた大規模拡散モデルの学習に有効な手法を提案する。
具体的には、トレーニング中に拡散された入力画像のパッチの割合をランダムにマスキングする。
ImageNet-256x256 と ImageNet-512x512 の実験により,我々の手法は最先端の拡散変換器 (DiT) モデルよりも競争力があり,より優れた生成性能が得られることが示された。
論文 参考訳(メタデータ) (2023-06-15T17:38:48Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。
対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。
さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文 参考訳(メタデータ) (2022-01-31T10:23:23Z) - A Comparative Analysis of Machine Learning Approaches for Automated Face
Mask Detection During COVID-19 [0.0]
WHOは、新型コロナウイルス感染を防ぐための最も効果的な対策の一つとして、マスクを着用することを推奨している。
マスク検出のための多くのディープラーニングモデルを探索し、2つのベンチマークデータセットで評価する。
すべてのモデルのパフォーマンスは非常に良好ですが、転送学習モデルは最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-12-15T06:30:50Z) - COVID-19 Face Mask Recognition with Advanced Face Cut Algorithm for
Human Safety Measures [0.0]
新型コロナウイルス(COVID-19)は、人体の呼吸器に主に影響を及ぼす、高度に汚染された病気である。
本提案では,画像やビデオから顔のマスクを認識するためのコンピュータビジョンとディープラーニングフレームワークをデプロイする。
実験の結果、わずか10時間でYOLOV3マスク認識アーキテクチャと比較して3.4%の大幅な進歩が見られた。
論文 参考訳(メタデータ) (2021-10-08T18:03:36Z) - Boosting Masked Face Recognition with Multi-Task ArcFace [0.973681576519524]
新型コロナウイルス(COVID-19)による世界的な健康危機を考えると、口と鼻を覆うマスクは日常の衣服に欠かせないものになっています。
この尺度は、マスクされた顔で機能するよう設計されていないため、最先端の顔認識モデルをロープに乗せている。
完全なトレーニングパイプラインがArcFace作業に基づいて提示され、バックボーンとロス関数のいくつかの修正が行われている。
論文 参考訳(メタデータ) (2021-04-20T10:12:04Z) - Contrastive Context-Aware Learning for 3D High-Fidelity Mask Face
Presentation Attack Detection [103.7264459186552]
顔認識システムには、顔提示攻撃検出(PAD)が不可欠である。
ほとんどの既存の3DマスクPADベンチマークにはいくつかの欠点があります。
現実世界のアプリケーションとのギャップを埋めるために、大規模なハイファイアリティマスクデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-13T12:48:38Z) - BinaryCoP: Binary Neural Network-based COVID-19 Face-Mask Wear and
Positioning Predictor on Edge Devices [63.56630165340053]
フェイスマスクは、空気性疾患に対する双方向保護のための医療に効果的な解決策を提供する。
CNNは、顔認識と正しいマスク着用と位置決めの分類に優れたソリューションを提供する。
CNNは、企業ビル、空港、ショッピングエリア、その他の屋内場所への入り口で利用でき、ウイルスの拡散を緩和することができる。
論文 参考訳(メタデータ) (2021-02-06T00:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。