論文の概要: Learning Sign Language Representation using CNN LSTM, 3DCNN, CNN RNN LSTM and CCN TD
- arxiv url: http://arxiv.org/abs/2412.18187v1
- Date: Tue, 24 Dec 2024 05:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:32.724294
- Title: Learning Sign Language Representation using CNN LSTM, 3DCNN, CNN RNN LSTM and CCN TD
- Title(参考訳): CNN LSTM, 3DCNN, CNN RNN LSTM, CCN TDを用いた手話表現の学習
- Authors: Nikita Louison, Wayne Goodridge, Koffka Khan,
- Abstract要約: 本研究の目的は,手話授業システムにおいて最適なニューラルネットワークアルゴリズムの評価と同定を行うことである。
3DCNNアルゴリズムは、TTSLデータセットでは91%、ASLデータセットでは83%の精度で、これらのシステムから最高のニューラルネットワークアルゴリズムを実行することが判明した。
- 参考スコア(独自算出の注目度): 1.2494184403263338
- License:
- Abstract: Existing Sign Language Learning applications focus on the demonstration of the sign in the hope that the student will copy a sign correctly. In these cases, only a teacher can confirm that the sign was completed correctly, by reviewing a video captured manually. Sign Language Translation is a widely explored field in visual recognition. This paper seeks to explore the algorithms that will allow for real-time, video sign translation, and grading of sign language accuracy for new sign language users. This required algorithms capable of recognizing and processing spatial and temporal features. The aim of this paper is to evaluate and identify the best neural network algorithm that can facilitate a sign language tuition system of this nature. Modern popular algorithms including CNN and 3DCNN are compared on a dataset not yet explored, Trinidad and Tobago Sign Language as well as an American Sign Language dataset. The 3DCNN algorithm was found to be the best performing neural network algorithm from these systems with 91% accuracy in the TTSL dataset and 83% accuracy in the ASL dataset.
- Abstract(参考訳): 既存の手話学習アプリケーションは、学生がサインを正しくコピーすることを願って、サインのデモンストレーションに焦点を当てている。
これらの場合、手動で撮影した映像をレビューすることで、サインが正しく完了したことを確認できるのは教師のみである。
手話翻訳は視覚認識の分野で広く研究されている分野である。
本稿では,新しい手話利用者のためのリアルタイム,ビデオ手話翻訳,手話の精度向上のためのアルゴリズムを探究する。
これは空間的特徴と時間的特徴を認識し処理できるアルゴリズムを必要とした。
本研究の目的は、この性質の手話授業システムを容易にする最適なニューラルネットワークアルゴリズムを評価し、同定することである。
CNNや3DCNNといった現代の一般的なアルゴリズムは、まだ探索されていないデータセット、TrinidadとTobago Sign Language、およびAmerican Sign Languageデータセットで比較される。
3DCNNアルゴリズムは、TTSLデータセットでは91%、ASLデータセットでは83%の精度で、これらのシステムから最高のニューラルネットワークアルゴリズムを実行することが判明した。
関連論文リスト
- Enhancing Bidirectional Sign Language Communication: Integrating YOLOv8 and NLP for Real-Time Gesture Recognition & Translation [1.08935184607501]
We have used the You Only Look Once (YOLO) model and Convolutional Neural Network (CNN) model。
YOLOモデルはリアルタイムに実行され、生のビデオストリームから識別的空間時間特性を自動的に抽出する。
ここでのCNNモデルは、手話検出のためにリアルタイムに実行される。
論文 参考訳(メタデータ) (2024-11-18T19:55:11Z) - Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - Multi-View Spatial-Temporal Network for Continuous Sign Language
Recognition [0.76146285961466]
本稿では,多視点空間時間連続手話認識ネットワークを提案する。
2つの公開手話データセット SLR-100 と PHOENIX-Weather 2014T (RWTH) でテストされている。
論文 参考訳(メタデータ) (2022-04-19T08:43:03Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Application of Transfer Learning to Sign Language Recognition using an
Inflated 3D Deep Convolutional Neural Network [0.0]
転送学習は、十分なデータを持たない対象タスクを解決するのに役立つ大量のデータを持つ関連タスクを活用する技術である。
本稿では,手話認識における伝達学習の有効性について検討する。
論文 参考訳(メタデータ) (2021-02-25T13:37:39Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。