論文の概要: Snapture -- A Novel Neural Architecture for Combined Static and Dynamic
Hand Gesture Recognition
- arxiv url: http://arxiv.org/abs/2205.15862v2
- Date: Tue, 27 Feb 2024 10:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 01:24:45.980947
- Title: Snapture -- A Novel Neural Architecture for Combined Static and Dynamic
Hand Gesture Recognition
- Title(参考訳): Snapture -- 静的および動的ハンドジェスチャ認識を併用したニューラルアーキテクチャ
- Authors: Hassan Ali, Doreen Jirak, Stefan Wermter
- Abstract要約: そこで本研究では,新しいハイブリットハンドジェスチャ認識システムを提案する。
我々のアーキテクチャは静的なジェスチャーと動的ジェスチャーの両方を学ぶことができる。
本研究は,ロボットとの非言語コミュニケーションのためのジェスチャー認識研究と機械学習応用の両方に貢献する。
- 参考スコア(独自算出の注目度): 19.320551882950706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As robots are expected to get more involved in people's everyday lives,
frameworks that enable intuitive user interfaces are in demand. Hand gesture
recognition systems provide a natural way of communication and, thus, are an
integral part of seamless Human-Robot Interaction (HRI). Recent years have
witnessed an immense evolution of computational models powered by deep
learning. However, state-of-the-art models fall short in expanding across
different gesture domains, such as emblems and co-speech. In this paper, we
propose a novel hybrid hand gesture recognition system. Our architecture
enables learning both static and dynamic gestures: by capturing a so-called
"snapshot" of the gesture performance at its peak, we integrate the hand pose
along with the dynamic movement. Moreover, we present a method for analyzing
the motion profile of a gesture to uncover its dynamic characteristics and
which allows regulating a static channel based on the amount of motion. Our
evaluation demonstrates the superiority of our approach on two gesture
benchmarks compared to a CNNLSTM baseline. We also provide an analysis on a
gesture class basis that unveils the potential of our Snapture architecture for
performance improvements. Thanks to its modular implementation, our framework
allows the integration of other multimodal data like facial expressions and
head tracking, which are important cues in HRI scenarios, into one
architecture. Thus, our work contributes both to gesture recognition research
and machine learning applications for non-verbal communication with robots.
- Abstract(参考訳): ロボットは人々の日常生活にもっと関与することが期待されているため、直感的なユーザーインターフェースを実現するフレームワークが要求される。
ハンドジェスチャー認識システムは自然なコミュニケーション方法を提供しており、シームレスなヒューマンロボットインタラクション(HRI)の不可欠な部分である。
近年、ディープラーニングによる計算モデルの膨大な進化が目撃されている。
しかし、最先端モデルは、エンブレムや共同音声など、さまざまなジェスチャー領域にまたがる拡張に不足している。
本稿では,新しい手ジェスチャー認識システムを提案する。
我々のアーキテクチャは静的なジェスチャーと動的ジェスチャーの両方の学習を可能にし、そのピーク時にジェスチャーパフォーマンスのいわゆる「スナップショット」をキャプチャすることで、ダイナミックな動きとハンドポーズを統合する。
さらに,ジェスチャーの動作プロファイルを分析し,その動的特性を明らかにすることで,動作量に基づいて静的チャネルを制御できる手法を提案する。
CNNLSTMベースラインと比較して,2つのジェスチャベンチマークに対するアプローチが優れていることを示す。
また、パフォーマンス改善のためのSnaptureアーキテクチャの可能性を明らかにするジェスチャークラスに基づく分析も提供します。
モジュラ実装により,HRIシナリオの重要な手がかりである表情やヘッドトラッキングといった,他のマルチモーダルデータをひとつのアーキテクチャに統合することが可能になる。
そこで本研究は,ロボットとの非言語コミュニケーションのためのジェスチャー認識研究と機械学習応用の両方に貢献する。
関連論文リスト
- Recognition of Dynamic Hand Gestures in Long Distance using a Web-Camera for Robot Guidance [2.625826951636656]
本研究では,最大20mの遠距離からの動的ジェスチャー認識モデルを提案する。
このモデルはSlowFastとTransformerアーキテクチャ(SFT)を統合し、ビデオフレームでキャプチャされた複雑なジェスチャシーケンスを効果的に処理し分類する。
論文 参考訳(メタデータ) (2024-06-18T09:17:28Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Efficient Gesture Recognition for the Assistance of Visually Impaired
People using Multi-Head Neural Networks [5.883916678819684]
本稿では,視覚障害者支援を目的とした手ジェスチャーによって制御されるモバイルデバイスの対話型システムを提案する。
このシステムにより、ユーザーはシンプルな静的、ダイナミックな手の動きをすることでデバイスと対話できる。
各ジェスチャーは、オブジェクト認識、シーン記述、イメージスケーリングなど、システム内の異なるアクションをトリガーする。
論文 参考訳(メタデータ) (2022-05-14T06:01:47Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - Gesture Similarity Analysis on Event Data Using a Hybrid Guided
Variational Auto Encoder [3.1148846501645084]
本研究では,背景を自然分解し,時間分解能の高いジェスチャーを解析するニューロモーフィックジェスチャー解析システムを提案する。
以上の結果から,VAEが学習した特徴は,新しいジェスチャーのクラスタリングと擬似ラベル付けが可能な類似度尺度を提供することがわかった。
論文 参考訳(メタデータ) (2021-03-31T23:58:34Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Gesture Recognition from Skeleton Data for Intuitive Human-Machine
Interaction [0.6875312133832077]
本稿では,手工芸品の集合に基づく動的ジェスチャーのセグメント化と分類のためのアプローチを提案する。
ジェスチャー認識方法はスライディングウィンドウを適用し、空間次元と時間次元の両方から情報を抽出する。
最終的に、認識されたジェスチャーは、協調ロボットと対話するために使用される。
論文 参考訳(メタデータ) (2020-08-26T11:28:50Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z) - A Deep Learning Framework for Recognizing both Static and Dynamic
Gestures [0.8602553195689513]
静的なジェスチャーと動的ジェスチャーの両方を,(奥行き検出なしで)単純なRGBビジョンを用いて認識する統合フレームワークを提案する。
我々はポーズ駆動型空間アテンション戦略を採用し、提案した静的・動的ジェスチャネットワーク - StaDNet をガイドする。
いくつかの実験において、提案手法が大規模Chalearn 2016データセットの最先端結果を上回っていることが示されている。
論文 参考訳(メタデータ) (2020-06-11T10:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。