論文の概要: Design of Human Machine Interface through vision-based low-cost Hand
Gesture Recognition system based on deep CNN
- arxiv url: http://arxiv.org/abs/2207.03112v2
- Date: Mon, 11 Jul 2022 13:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 10:56:22.995515
- Title: Design of Human Machine Interface through vision-based low-cost Hand
Gesture Recognition system based on deep CNN
- Title(参考訳): 深部CNNに基づく視覚に基づく低コストハンドジェスチャ認識システムによるヒューマンマシンインタフェースの設計
- Authors: Abir Sen, Tapas Kumar Mishra and Ratnakar Dash
- Abstract要約: リアルタイムの手ジェスチャー認識システムを用いたヒューマンコンピュータインタフェース(HCI)を提案する。
本システムは,手検出,(2)ジェスチャーセグメンテーション,(3)移動学習による6つの事前学習CNNモデルの使用,(4)対話型ヒューマンマシンインタフェースの構築,(5)ジェスチャー制御仮想マウスの開発,の6段階からなる。
- 参考スコア(独自算出の注目度): 3.5665681694253903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, a real-time hand gesture recognition system-based
human-computer interface (HCI) is presented. The system consists of six stages:
(1) hand detection, (2) gesture segmentation, (3) use of six pre-trained CNN
models by using the transfer-learning method, (4) building an interactive
human-machine interface, (5) development of a gesture-controlled virtual mouse,
(6) use of Kalman filter to estimate the hand position, based on that the
smoothness of the motion of pointer is improved. Six pre-trained convolutional
neural network (CNN) models (VGG16, VGG19, ResNet50, ResNet101, Inception-V1,
and MobileNet-V1) have been used to classify hand gesture images. Three
multi-class datasets (two publicly and one custom) have been used to evaluate
the model performances. Considering the models' performances, it has been
observed that Inception-V1 has significantly shown a better classification
performance compared to the other five pre-trained models in terms of accuracy,
precision, recall, and F-score values. The gesture recognition system is
expanded and used to control multimedia applications (like VLC player, audio
player, file management, playing 2D Super-Mario-Bros game, etc.) with different
customized gesture commands in real-time scenarios. The average speed of this
system has reached 35 fps (frame per seconds), which meets the requirements for
the real-time scenario.
- Abstract(参考訳): 本稿では,リアルタイムなハンドジェスチャ認識システムに基づくヒューマンコンピュータインタフェース(hci)を提案する。
本システムは,(1)手検出,(2)ジェスチャーセグメンテーション,(3)手動学習による6つの事前学習CNNモデルの使用,(4)対話型ヒューマンマシンインタフェースの構築,(5)ジェスチャー制御仮想マウスの開発,(6)手動運動の滑らかさの向上に基づく手動位置推定のためのカルマンフィルタの使用,の6段階からなる。
6つの事前訓練された畳み込みニューラルネットワーク(CNN)モデル(VGG16、VGG19、ResNet50、ResNet101、Inception-V1、MobileNet-V1)が手ジェスチャー画像の分類に使用されている。
モデルパフォーマンスを評価するために、3つのマルチクラスデータセット(2つのパブリックデータセットと1つのカスタムデータセット)が使用されている。
モデルの性能を考慮すると、Inception-V1は他の5つの事前学習モデルと比較して、精度、精度、リコール、Fスコア値の分類性能が著しく向上していることが観察されている。
ジェスチャー認識システムは、マルチメディアアプリケーション(VLCプレーヤー、オーディオプレーヤー、ファイル管理、2D Super-Mario-Brosゲームなど)をリアルタイムでカスタマイズされたジェスチャーコマンドで制御するために拡張され、使用される。
このシステムの平均速度は35fps (秒単位のフレーム)に達し、リアルタイムシナリオの要件を満たす。
関連論文リスト
- Novel Human Machine Interface via Robust Hand Gesture Recognition System using Channel Pruned YOLOv5s Model [4.0194015554916644]
本稿では,チャネル型YOLOv5sモデルを用いた手動作検出と分類モデルを提案する。
提案手法は,リアルタイムなジェスチャコマンドベースのHCIを実現するために,プルーニングされたYOLOv5sモデルをデプロイする方法を舗装する。
提案システムの平均検出速度は60フレーム/秒 (fps) 以上に達している。
論文 参考訳(メタデータ) (2024-07-02T18:10:20Z) - MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition [49.52436478739151]
大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。
近年の手法では、ゼロショット3次元形状認識を実現するために、言語画像事前学習を採用している。
本稿では、ビュー選択と階層的プロンプトによる信頼性の向上を目的とする。
論文 参考訳(メタデータ) (2023-11-30T09:51:53Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - On-device Real-time Hand Gesture Recognition [1.4658400971135652]
本稿では,1台のRGBカメラから予め定義された静的ジェスチャーを検知するデバイス上でのリアルタイム手ジェスチャー認識(HGR)システムを提案する。
ハンドスケルトントラッカーの基礎としてMediaPipe Handsを使用し、キーポイント精度を改善し、世界距離空間における3次元キーポイントの推定を追加する。
論文 参考訳(メタデータ) (2021-10-29T18:33:25Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - HandVoxNet++: 3D Hand Shape and Pose Estimation using Voxel-Based Neural
Networks [71.09275975580009]
HandVoxNet++は、完全に教師された方法でトレーニングされた3Dおよびグラフ畳み込みを備えた、ボクセルベースのディープネットワークである。
HandVoxNet++は2つの手形状表現に依存している。1つは手形状の3Dボキセル化グリッドで、メッシュトポロジを保存していない。
我々は、新しいニューラルグラフ畳み込みに基づくメッシュレジストレーション(GCN-MeshReg)または古典的セグメントワイド非リジッド重力法(NRGA++)と、手表面をボキセル化ハンド形状に整列させることにより、両表現の利点を組み合わせる。
論文 参考訳(メタデータ) (2021-07-02T17:59:54Z) - DriverMHG: A Multi-Modal Dataset for Dynamic Recognition of Driver Micro
Hand Gestures and a Real-Time Recognition Framework [9.128828609564522]
ビデオストリームからの動的マイクロハンドジェスチャのリアルタイム認識は車内シナリオでは困難である。
本稿では,スライディングウインドウアプローチを用いて,オンラインで効率的に動作する軽量畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
3D-MobileNetV2は、最高のオフライン精度を提供する。
論文 参考訳(メタデータ) (2020-03-02T14:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。