論文の概要: Novel Human Machine Interface via Robust Hand Gesture Recognition System using Channel Pruned YOLOv5s Model
- arxiv url: http://arxiv.org/abs/2407.02585v1
- Date: Tue, 2 Jul 2024 18:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 18:33:58.523467
- Title: Novel Human Machine Interface via Robust Hand Gesture Recognition System using Channel Pruned YOLOv5s Model
- Title(参考訳): チャネル型YOLOv5sモデルを用いたロバストハンドジェスチャー認識システムによる新しいヒューマンマシンインタフェース
- Authors: Abir Sen, Tapas Kumar Mishra, Ratnakar Dash,
- Abstract要約: 本稿では,チャネル型YOLOv5sモデルを用いた手動作検出と分類モデルを提案する。
提案手法は,リアルタイムなジェスチャコマンドベースのHCIを実現するために,プルーニングされたYOLOv5sモデルをデプロイする方法を舗装する。
提案システムの平均検出速度は60フレーム/秒 (fps) 以上に達している。
- 参考スコア(独自算出の注目度): 4.0194015554916644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hand gesture recognition (HGR) is a vital component in enhancing the human-computer interaction experience, particularly in multimedia applications, such as virtual reality, gaming, smart home automation systems, etc. Users can control and navigate through these applications seamlessly by accurately detecting and recognizing gestures. However, in a real-time scenario, the performance of the gesture recognition system is sometimes affected due to the presence of complex background, low-light illumination, occlusion problems, etc. Another issue is building a fast and robust gesture-controlled human-computer interface (HCI) in the real-time scenario. The overall objective of this paper is to develop an efficient hand gesture detection and classification model using a channel-pruned YOLOv5-small model and utilize the model to build a gesture-controlled HCI with a quick response time (in ms) and higher detection speed (in fps). First, the YOLOv5s model is chosen for the gesture detection task. Next, the model is simplified by using a channel-pruned algorithm. After that, the pruned model is further fine-tuned to ensure detection efficiency. We have compared our suggested scheme with other state-of-the-art works, and it is observed that our model has shown superior results in terms of mAP (mean average precision), precision (\%), recall (\%), and F1-score (\%), fast inference time (in ms), and detection speed (in fps). Our proposed method paves the way for deploying a pruned YOLOv5s model for a real-time gesture-command-based HCI to control some applications, such as the VLC media player, Spotify player, etc., using correctly classified gesture commands in real-time scenarios. The average detection speed of our proposed system has reached more than 60 frames per second (fps) in real-time, which meets the perfect requirement in real-time application control.
- Abstract(参考訳): ハンドジェスチャー認識(HGR)は、バーチャルリアリティ、ゲーム、スマートホームオートメーションシステムなど、特にマルチメディアアプリケーションにおいて、人間とコンピュータのインタラクションエクスペリエンスを向上させる上で重要なコンポーネントである。
ユーザはジェスチャーを正確に検出し、認識することで、これらのアプリケーションをシームレスに制御し、ナビゲートすることができる。
しかし、リアルタイムのシナリオでは、複雑な背景、低照度照明、閉塞問題などにより、ジェスチャー認識システムの性能が影響を受けることがある。
もうひとつの問題は、リアルタイムシナリオにおいて、高速で堅牢なジェスチャー制御型ヒューマンコンピュータインタフェース(HCI)を構築することだ。
本研究の目的は, チャネルプレーニングされたYOLOv5小モデルを用いて, 高速応答時間(ms)と高速検出速度(fps)でジェスチャー制御されたHCIを構築することにある。
まず、ジェスチャー検出タスクに対してYOLOv5sモデルを選択する。
次に、チャネル計算アルゴリズムを用いてモデルを単純化する。
その後、プルーンドモデルはさらに微調整され、検出効率が確保される。
提案手法を他の最先端技術と比較した結果,mAP(平均精度),精度(平均精度),リコール(倍率),F1スコア(倍率),高速推論時間(ms),検出速度(fps)で優れた結果が得られた。
提案手法は,リアルタイムなジェスチャコマンドに基づくHCIのためのプルーニングされたYOLOv5sモデルをデプロイし,VLCメディアプレーヤやSpotifyプレーヤなど,リアルタイムシナリオで正しく分類されたジェスチャコマンドを使用して,いくつかのアプリケーションを制御する方法である。
提案システムの平均検出速度は60フレーム/秒 (fps) 以上に達し, リアルタイムアプリケーション制御の完全要件を満たす。
関連論文リスト
- Graspness Discovery in Clutters for Fast and Accurate Grasp Detection [57.81325062171676]
グレープネス(graspness)とは、散らばった場面で把握可能な領域を区別する幾何学的手がかりに基づく品質である。
本研究では,探索過程を近似するカスケード把握モデルを構築した。
大規模なベンチマークであるGraspNet-1Billionの実験では,提案手法が従来の手法よりも大きなマージンで優れていたことが示されている。
論文 参考訳(メタデータ) (2024-06-17T02:06:47Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - Hand gesture recognition using 802.11ad mmWave sensor in the mobile
device [2.5476515662939563]
スマートフォンにおける802.11ad 60GHz (mmWave) 技術を用いたAI支援手振り認識の実現可能性について検討する。
我々は、時間分割デュプレックス(TDD)によってレーダーセンシングと通信波形が共存できるプロトタイプシステムを構築した。
センシングデータを収集し、100ミリ秒以内にジェスチャーを予測する。
論文 参考訳(メタデータ) (2022-11-14T03:36:17Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Design of Human Machine Interface through vision-based low-cost Hand
Gesture Recognition system based on deep CNN [3.5665681694253903]
リアルタイムの手ジェスチャー認識システムを用いたヒューマンコンピュータインタフェース(HCI)を提案する。
本システムは,手検出,(2)ジェスチャーセグメンテーション,(3)移動学習による6つの事前学習CNNモデルの使用,(4)対話型ヒューマンマシンインタフェースの構築,(5)ジェスチャー制御仮想マウスの開発,の6段階からなる。
論文 参考訳(メタデータ) (2022-07-07T06:50:08Z) - Cross-modal Learning of Graph Representations using Radar Point Cloud
for Long-Range Gesture Recognition [6.9545038359818445]
長距離(1m~2m)ジェスチャー認識のための新しいアーキテクチャを提案する。
私たちは、カメラポイントクラウドから60GHzのFMCWレーダポイントクラウドまで、ポイントクラウドベースのクロスラーニングアプローチを使用します。
実験結果では,5つのジェスチャーに対して98.4%の総合精度と一般化能力を示す。
論文 参考訳(メタデータ) (2022-03-31T14:34:36Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Towards Domain-Independent and Real-Time Gesture Recognition Using
mmWave Signal [11.76969975145963]
DI-Gesture はドメインに依存しないリアルタイムの mmWave ジェスチャー認識システムである。
リアルタイムシナリオでは、DI-Gesutreの精度は平均推定時間2.87msで97%以上に達する。
論文 参考訳(メタデータ) (2021-11-11T13:28:28Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。