論文の概要: Egyptian Sign Language Recognition Using CNN and LSTM
- arxiv url: http://arxiv.org/abs/2107.13647v1
- Date: Wed, 28 Jul 2021 21:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 23:24:40.488970
- Title: Egyptian Sign Language Recognition Using CNN and LSTM
- Title(参考訳): CNNとLSTMを用いたエジプト手話認識
- Authors: Ahmed Elhagry, Rawan Gla
- Abstract要約: 本稿では、2つの異なるニューラルネットワークアーキテクチャを持つコンピュータビジョンシステムを提案する。
2つのモデルはそれぞれ90%と72%の精度を達成した。
エジプトの聴覚障害者コミュニティの9つの共通語(類似した記号)を区別するために、これらの2つの建築の力について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language is a set of gestures that deaf people use to communicate.
Unfortunately, normal people don't understand it, which creates a communication
gap that needs to be filled. Because of the variations in (Egyptian Sign
Language) ESL from one region to another, ESL provides a challenging research
problem. In this work, we are providing applied research with its video-based
Egyptian sign language recognition system that serves the local community of
deaf people in Egypt, with a moderate and reasonable accuracy. We present a
computer vision system with two different neural networks architectures. The
first is a Convolutional Neural Network (CNN) for extracting spatial features.
The CNN model was retrained on the inception mod. The second architecture is a
CNN followed by a Long Short-Term Memory (LSTM) for extracting both spatial and
temporal features. The two models achieved an accuracy of 90% and 72%,
respectively. We examined the power of these two architectures to distinguish
between 9 common words (with similar signs) among some deaf people community in
Egypt.
- Abstract(参考訳): 手話は、人々がコミュニケーションに使用するジェスチャーのセットです。
残念なことに、普通の人はそれを理解していないため、埋める必要があるコミュニケーションギャップが生じます。
エジプト手話(Egyptian Sign Language)ESLは、ある地域から別の地域へ変化するため、ESLは困難な研究課題を提供する。
本研究は,エジプトの聴覚障害者の地域コミュニティに適度かつ合理的な精度でサービスを提供する,ビデオベースのエジプト手話認識システムを用いて,応用研究を行っている。
2つの異なるニューラルネットワークアーキテクチャを持つコンピュータビジョンシステムを提案する。
1つ目は、空間的特徴を抽出する畳み込みニューラルネットワーク(CNN)である。
CNNモデルは開始モードで再訓練された。
第2のアーキテクチャはCNNに続き、空間的特徴と時間的特徴の両方を抽出するLong Short-Term Memory (LSTM)が続く。
2つのモデルはそれぞれ90%と72%の精度を達成した。
エジプトの聴覚障害者コミュニティにおいて、9つの共通語(類似の記号)を区別するために,これら2つのアーキテクチャの能力を検討した。
関連論文リスト
- Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Image-based Indian Sign Language Recognition: A Practical Review using
Deep Neural Networks [0.0]
このモデルは、手話をテキストに変換するリアルタイムな単語レベル手話認識システムを開発することを目的としている。
この分析のために、ユーザはWebカメラを使って手の動きの写真を撮らなければならない。
我々のモデルは畳み込みニューラルネットワーク(CNN)を用いて訓練され、画像の認識に使用される。
論文 参考訳(メタデータ) (2023-04-28T09:27:04Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Multi-View Spatial-Temporal Network for Continuous Sign Language
Recognition [0.76146285961466]
本稿では,多視点空間時間連続手話認識ネットワークを提案する。
2つの公開手話データセット SLR-100 と PHOENIX-Weather 2014T (RWTH) でテストされている。
論文 参考訳(メタデータ) (2022-04-19T08:43:03Z) - Gesture based Arabic Sign Language Recognition for Impaired People based
on Convolution Neural Network [0.0]
アラビア手話(ArSL)の認識は、アラビア手話(ArSL)のバリエーションにより難しい研究課題となっている。
提案システムは、アラビア手話の手振りを入力とし、発声音声を出力する。
結果は90%の人に認識された。
論文 参考訳(メタデータ) (2022-03-10T19:36:04Z) - Sign Language Recognition System using TensorFlow Object Detection API [0.0]
本稿では,Webカメラを用いてインド手話データセットを作成し,次に移動学習を用いて,リアルタイム手話認識システムを構築するためのモデルを訓練する手法を提案する。
システムは、限られたサイズのデータセットであっても、良好な精度を達成する。
論文 参考訳(メタデータ) (2022-01-05T07:13:03Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Sexism detection: The first corpus in Algerian dialect with a
code-switching in Arabic/ French and English [0.3425341633647625]
3種類のアノテーションを用いて新しいヘイトスピーチコーパス(arabic_fr_en)を開発した。
コーパス検証には、深層畳み込みニューラルネットワーク(CNN)、長期記憶(LSTM)ネットワーク、双方向LSTM(Bi-directional LSTM)ネットワークを含む3つの異なる機械学習アルゴリズムが使用される。
シミュレーションの結果,不均衡コーパスのf1-scoreを最大86%達成したcnnモデルの最適性能が示された。
論文 参考訳(メタデータ) (2021-04-03T16:34:51Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Video-based Person Re-Identification using Gated Convolutional Recurrent
Neural Networks [89.70701173600742]
本稿では,ディープニューラルネットワークに新しいゲーティング機構を導入する。
我々のゲーティングメカニズムは、人物の再識別に役立つ領域を学習し、これらの領域をゲートを通過させる。
2つの主要なデータセットに対する実験結果は、提案したゲーティング機構による性能改善を示す。
論文 参考訳(メタデータ) (2020-03-21T18:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。