論文の概要: FineHand: Learning Hand Shapes for American Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2003.08753v1
- Date: Wed, 4 Mar 2020 23:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 12:15:47.770474
- Title: FineHand: Learning Hand Shapes for American Sign Language Recognition
- Title(参考訳): FineHand: アメリカの手話認識のための手形学習
- Authors: Al Amin Hosain, Panneer Selvam Santhalingam, Parth Pathak, Huzefa
Rangwala and Jana Kosecka
- Abstract要約: 本稿では,手形状の埋め込みを効果的に学習するためのアプローチを提案する。
手形認識には手動ラベル付き手形と高信頼度予測を組み合わせて深部畳み込みニューラルネットワーク(CNN)を訓練する。
より高品質な手形状モデルが最終映像ジェスチャー分類の精度を大幅に向上させることを実証する。
- 参考スコア(独自算出の注目度): 16.862375555609667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: American Sign Language recognition is a difficult gesture recognition
problem, characterized by fast, highly articulate gestures. These are comprised
of arm movements with different hand shapes, facial expression and head
movements. Among these components, hand shape is the vital, often the most
discriminative part of a gesture. In this work, we present an approach for
effective learning of hand shape embeddings, which are discriminative for ASL
gestures. For hand shape recognition our method uses a mix of manually labelled
hand shapes and high confidence predictions to train deep convolutional neural
network (CNN). The sequential gesture component is captured by recursive neural
network (RNN) trained on the embeddings learned in the first stage. We will
demonstrate that higher quality hand shape models can significantly improve the
accuracy of final video gesture classification in challenging conditions with
variety of speakers, different illumination and significant motion blurr. We
compare our model to alternative approaches exploiting different modalities and
representations of the data and show improved video gesture recognition
accuracy on GMU-ASL51 benchmark dataset
- Abstract(参考訳): アメリカ手話認識は、高速で明瞭なジェスチャーを特徴とする、難しいジェスチャー認識問題である。
これらは、手形、表情、頭の動きの異なる腕の動きで構成されている。
これらの要素のうち、手の形は極めて重要であり、しばしばジェスチャーの最も差別的な部分である。
本稿では,aslジェスチャを識別する手形埋め込みの効果的な学習手法を提案する。
手形の認識には,手動でラベル付けした手形と高信頼度予測を組み合わせて,深層畳み込みニューラルネットワーク(CNN)を訓練する。
シーケンシャルなジェスチャーコンポーネントは、最初の段階で学んだ埋め込みに基づいてトレーニングされた再帰的ニューラルネットワーク(RNN)によってキャプチャされる。
多様な話者,異なる照明,有意な動きのぼかしを伴う課題条件において,高品質のハンドシェイプモデルが最終的な映像ジェスチャ分類の精度を大幅に向上できることを実証する。
我々は,gmu-asl51ベンチマークデータセットにおいて,異なるモーダリティと表現を利用する代替手法と比較し,映像ジェスチャ認識精度の向上を示す。
関連論文リスト
- Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文 参考訳(メタデータ) (2024-07-02T13:02:51Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Local Spherical Harmonics Improve Skeleton-Based Hand Action Recognition [17.62840662799232]
本研究では, 局所球面高調波と相対角埋め込みを用いた手動作認識のための新しい手動作表現法を提案する。
Spherical Harmonicsの使用は、オブジェクト間の差異や視点の変化に対して手の動き認識をさらに堅牢にする回転不変表現を生成する。
論文 参考訳(メタデータ) (2023-08-21T08:17:42Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Real-time Indian Sign Language (ISL) Recognition [0.45880283710344055]
本稿では,インド手話(ISL)のポーズやジェスチャーをリアルタイムで認識するシステムを提案する。
既存のソリューションは比較的低い精度を提供するか、リアルタイムに動作しない。
33のポーズとISLからのジェスチャーを識別できる。
論文 参考訳(メタデータ) (2021-08-24T21:49:21Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - A deep-learning--based multimodal depth-aware dynamic hand gesture
recognition system [5.458813674116228]
深度定量化画像ハンドスケルトン関節点を用いたダイナミックハンドジェスチャ認識(DHG)に着目した。
特に,CNNとリカレントニューラルネットワーク(Recurrent Neural Network, RNN)を用いたマルチモーダル核融合ネットワークにおける深度量子化の効果について検討する。
論文 参考訳(メタデータ) (2021-07-06T11:18:53Z) - SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild [62.450907796261646]
手のジェスチャーの認識は、ソフトウェアによって推定される手の骨格のストリームから直接行うことができる。
最近のスケルトンからのジェスチャーや行動認識の進歩にもかかわらず、現在の最先端技術が現実のシナリオでどの程度うまく機能するかは明らかではない。
本稿では,SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild contestについて述べる。
論文 参考訳(メタデータ) (2021-06-21T10:57:49Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Understanding the hand-gestures using Convolutional Neural Networks and
Generative Adversial Networks [0.0]
このシステムは、リアルタイムハンドトラッキング、トレーニングジェスチャ、および畳み込みニューラルネットワークを用いたジェスチャー認識の3つのモジュールで構成されている。
アルファベットや数字を含む36のジェスチャーの語彙でテストされ、アプローチの有効性が検証されている。
論文 参考訳(メタデータ) (2020-11-10T02:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。