論文の概要: An Advanced Deep Learning Based Three-Stream Hybrid Model for Dynamic Hand Gesture Recognition
- arxiv url: http://arxiv.org/abs/2408.08035v1
- Date: Thu, 15 Aug 2024 09:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:26:13.352106
- Title: An Advanced Deep Learning Based Three-Stream Hybrid Model for Dynamic Hand Gesture Recognition
- Title(参考訳): ダイナミックハンドジェスチャ認識のための深層学習に基づく3ストリームハイブリッドモデル
- Authors: Md Abdur Rahim, Abu Saleh Musa Miah, Hemel Sharker Akash, Jungpil Shin, Md. Imran Hossain, Md. Najmul Hossain,
- Abstract要約: 本稿では,RGBピクセルとスケルトンベースの特徴を組み合わせた3ストリームハイブリッドモデルを提案する。
手順では、拡張を含むデータセットを前処理し、回転、翻訳、独立系をスケールしました。
主に,画素ベースの深層学習機能とpos推定ベースの積み重ね深層学習機能を利用して,強力な特徴ベクトルを作成した。
- 参考スコア(独自算出の注目度): 1.7985212575295124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the modern context, hand gesture recognition has emerged as a focal point. This is due to its wide range of applications, which include comprehending sign language, factories, hands-free devices, and guiding robots. Many researchers have attempted to develop more effective techniques for recognizing these hand gestures. However, there are challenges like dataset limitations, variations in hand forms, external environments, and inconsistent lighting conditions. To address these challenges, we proposed a novel three-stream hybrid model that combines RGB pixel and skeleton-based features to recognize hand gestures. In the procedure, we preprocessed the dataset, including augmentation, to make rotation, translation, and scaling independent systems. We employed a three-stream hybrid model to extract the multi-feature fusion using the power of the deep learning module. In the first stream, we extracted the initial feature using the pre-trained Imagenet module and then enhanced this feature by using a multi-layer of the GRU and LSTM modules. In the second stream, we extracted the initial feature with the pre-trained ReseNet module and enhanced it with the various combinations of the GRU and LSTM modules. In the third stream, we extracted the hand pose key points using the media pipe and then enhanced them using the stacked LSTM to produce the hierarchical feature. After that, we concatenated the three features to produce the final. Finally, we employed a classification module to produce the probabilistic map to generate predicted output. We mainly produced a powerful feature vector by taking advantage of the pixel-based deep learning feature and pos-estimation-based stacked deep learning feature, including a pre-trained model with a scratched deep learning model for unequalled gesture detection capabilities.
- Abstract(参考訳): 現代の文脈では、手の動き認識が焦点として現れている。
これは、手話、工場、ハンズフリーデバイス、ガイドロボットなど、幅広い応用のおかげだ。
多くの研究者がこれらの手の動きを認識するためのより効果的な手法を開発しようと試みている。
しかし、データセットの制限、手形の変化、外部環境、一貫性のない照明条件といった課題がある。
これらの課題に対処するために,RGBピクセルとスケルトンに基づく特徴を組み合わせた3ストリームハイブリッドモデルを提案する。
手順では、拡張を含むデータセットを前処理し、回転、翻訳、独立系をスケールしました。
深層学習モジュールのパワーを用いて多機能融合を抽出するために,3ストリームハイブリッドモデルを用いた。
最初のストリームでは,事前訓練したImagenetモジュールを用いて初期特徴を抽出し,GRUおよびLSTMモジュールの多層構造を用いて拡張した。
第2のストリームでは、事前訓練されたReseNetモジュールで初期特徴を抽出し、GRUとLSTMモジュールの様々な組み合わせで拡張した。
第3のストリームでは,メディアパイプを用いて手ポーズキーポイントを抽出し,積み重ねLSTMを用いて拡張し,階層的特徴を得た。
その後、ファイナルを生成するために3つの特徴をまとめました。
最後に,予測出力を生成するための確率写像を生成するために分類モジュールを用いた。
我々は主に、画素ベースの深層学習機能とポス推定に基づく積み重ね深層学習機能を活用して強力な特徴ベクトルを作成し、その中には、不等化ジェスチャー検出機能のためのスクラッチ付き深部学習モデルを含む事前学習モデルが含まれていた。
関連論文リスト
- Learning Interaction-aware 3D Gaussian Splatting for One-shot Hand Avatars [47.61442517627826]
本稿では,3次元ガウススプラッティング(GS)と単一画像入力と手を相互作用するアニマタブルアバターを提案する。
提案手法は大規模なInterHand2.6Mデータセットの広範な実験により検証される。
論文 参考訳(メタデータ) (2024-10-11T14:14:51Z) - GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning [15.559369116540097]
ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。
本稿では,3Dガウススプラッティング(3DGS)をポイントクラウドの自己教師型学習に初めて統合したGS-PTを提案する。
我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
論文 参考訳(メタデータ) (2024-09-08T03:46:47Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - 3D Convolutional with Attention for Action Recognition [6.238518976312625]
現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。
本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
論文 参考訳(メタデータ) (2022-06-05T15:12:57Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-modal Fusion for Single-Stage Continuous Gesture Recognition [45.19890687786009]
テンポラル・マルチモーダル・フュージョン(TMMF)と呼ばれる単一段階連続ジェスチャー認識フレームワークを導入する。
TMMFは、単一のモデルでビデオ内の複数のジェスチャーを検出し、分類することができる。
このアプローチは、前処理のセグメンテーションステップを必要とせずに、ジェスチャーと非ジェスチャーの自然な遷移を学習する。
論文 参考訳(メタデータ) (2020-11-10T07:09:35Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。