論文の概要: Hand Gesture Recognition with Two Stage Approach Using Transfer Learning
and Deep Ensemble Learning
- arxiv url: http://arxiv.org/abs/2309.11610v1
- Date: Wed, 20 Sep 2023 19:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:54:00.469947
- Title: Hand Gesture Recognition with Two Stage Approach Using Transfer Learning
and Deep Ensemble Learning
- Title(参考訳): トランスファー学習とディープアンサンブル学習を用いた2段階学習による手のジェスチャー認識
- Authors: Serkan Sava\c{s}, Atilla Erg\"uzen
- Abstract要約: 畳み込みニューラルネットワークは、ディープアーキテクチャを使って画像から手の動きを認識するために使用することができる。
22種類のモデルの中で、VGGNetとMobileNetのモデルが最も精度が高い。
4つのモデルを組み合わせたアンサンブル学習手法を用いて,データセット上で手振り認識を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-Computer Interaction (HCI) has been the subject of research for many
years, and recent studies have focused on improving its performance through
various techniques. In the past decade, deep learning studies have shown high
performance in various research areas, leading researchers to explore their
application to HCI. Convolutional neural networks can be used to recognize hand
gestures from images using deep architectures. In this study, we evaluated
pre-trained high-performance deep architectures on the HG14 dataset, which
consists of 14 different hand gesture classes. Among 22 different models,
versions of the VGGNet and MobileNet models attained the highest accuracy
rates. Specifically, the VGG16 and VGG19 models achieved accuracy rates of
94.64% and 94.36%, respectively, while the MobileNet and MobileNetV2 models
achieved accuracy rates of 96.79% and 94.43%, respectively. We performed hand
gesture recognition on the dataset using an ensemble learning technique, which
combined the four most successful models. By utilizing these models as base
learners and applying the Dirichlet ensemble technique, we achieved an accuracy
rate of 98.88%. These results demonstrate the effectiveness of the deep
ensemble learning technique for HCI and its potential applications in areas
such as augmented reality, virtual reality, and game technologies.
- Abstract(参考訳): HCI(Human-Computer Interaction)は長年にわたって研究の対象となっており、近年では様々な技術による性能向上に重点を置いている。
過去10年間、ディープラーニングの研究は様々な研究領域で高いパフォーマンスを示しており、研究者はhciへの応用を探っている。
畳み込みニューラルネットワークは、深層アーキテクチャを使用して画像からのハンドジェスチャを認識するために使用できる。
本研究では,14種類のハンドジェスチャクラスからなるhg14データセット上で,事前学習したハイパフォーマンスなディープアーキテクチャを評価した。
22の異なるモデルの中で、vggnetとmobilenetのモデルが最も高い精度を達成した。
具体的には、VGG16とVGG19はそれぞれ94.64%と94.36%の精度を達成し、MobileNetとMobileNetV2は96.79%と94.43%の精度を達成した。
最も成功した4つのモデルを組み合わせたアンサンブル学習手法を用いて,データセット上で手のジェスチャー認識を行った。
これらのモデルをベースラーナーとして利用し,ディリクレアンサンブル法を適用し,98.88%の精度を達成した。
これらの結果は,HCIの深層アンサンブル学習技術の有効性と,拡張現実,仮想現実,ゲーム技術といった分野への応用の可能性を示している。
関連論文リスト
- A Comparative Study of Transfer Learning for Emotion Recognition using CNN and Modified VGG16 Models [0.0]
CNNと修正VGG16モデルの2つのデータセット(FER2013とAffectNet)における感情認識タスクの性能について検討する。
以上の結果から,2つのモデルがFER2013データセット上で妥当な性能を達成し,改良VGG16モデルが精度をわずかに向上したことが明らかとなった。
Affect-Netデータセットで評価すると、両方のモデルのパフォーマンスが低下し、修正VGG16モデルはCNNを上回っ続けている。
論文 参考訳(メタデータ) (2024-07-19T17:41:46Z) - Simultaneous prediction of hand gestures, handedness, and hand keypoints
using thermal images [0.6087960723103347]
赤外線カメラで捉えたサーマルデータを用いて手指のジェスチャー分類,手指検出,手指キーポイントの局所化を同時に行う手法を提案する。
提案手法は,共有エンコーダデコーダ層を含む新しい深層マルチタスク学習アーキテクチャを用いて,各タスクに専用の3つのブランチを付加する。
論文 参考訳(メタデータ) (2023-03-02T19:25:40Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Fast Learning of Dynamic Hand Gesture Recognition with Few-Shot Learning
Models [0.0]
我々は5~10種類のダイナミックハンドジェスチャを認識するために訓練されたFew-Shot Learningモデルを開発した。
モデルは、手の動き毎に1つ、2つ、5つの例をモデルに提供することで、任意に交換可能である。
その結果、5の認識では88.8%、10のダイナミックハンドジェスチャでは81.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-12-16T09:31:15Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Knowledge distillation: A good teacher is patient and consistent [71.14922743774864]
最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
論文 参考訳(メタデータ) (2021-06-09T17:20:40Z) - Facial Emotion Recognition: State of the Art Performance on FER2013 [0.0]
FER2013データセットで最高の単一ネットワーク分類精度を達成しました。
我々のモデルは、追加のトレーニングデータを用いることなく、FER2013上で73.28 %の最先端のシングルネットワーク精度を実現する。
論文 参考訳(メタデータ) (2021-05-08T04:20:53Z) - Performance Evaluation of Convolutional Neural Networks for Gait
Recognition [0.0]
CNN(Convolutional Neural Networks)はCASIA-BデータセットのGait Energy Images (GEIs)を用いて再訓練された。
ほぼ全てのモデルは90%を超える高い精度を達成しており、クラスの増加に対して堅牢である。
論文 参考訳(メタデータ) (2021-01-25T14:44:05Z) - PV-NAS: Practical Neural Architecture Search for Video Recognition [83.77236063613579]
ビデオタスクのためのディープニューラルネットワークは高度にカスタマイズされており、そのようなネットワークの設計にはドメインの専門家と高価な試行錯誤テストが必要である。
ネットワークアーキテクチャ検索の最近の進歩により、画像認識性能は大幅に向上した。
本研究では,実用的ビデオニューラルアーキテクチャ探索(PV-NAS)を提案する。
論文 参考訳(メタデータ) (2020-11-02T08:50:23Z) - A Data and Compute Efficient Design for Limited-Resources Deep Learning [68.55415606184]
同変ニューラルネットワークは 深層学習コミュニティへの関心を高めています
医療分野では、データの対称性を効果的に活用して、より正確で堅牢なモデルの構築に成功している。
ディープ・ラーニング・ソリューションのモバイル・オン・デバイス実装は医療応用のために開発されている。
しかし、同変モデルは大規模で計算コストのかかるアーキテクチャを用いて一般的に実装されており、モバイルデバイス上では動作しない。
本研究では、MobileNetV2の同変バージョンを設計、テストし、さらにモデル量子化により最適化し、より効率的な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-21T00:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。