Fugu-MT 論文翻訳(概要): Continuous Sign Language Recognition System using Deep Learning with MediaPipe Holistic

論文の概要: Continuous Sign Language Recognition System using Deep Learning with MediaPipe Holistic

arxiv url: http://arxiv.org/abs/2411.04517v1
Date: Thu, 07 Nov 2024 08:19:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.266886
Title: Continuous Sign Language Recognition System using Deep Learning with MediaPipe Holistic
Title（参考訳）: MediaPipe Holisticを用いたディープラーニングを用いた連続手話認識システム
Authors: Sharvani Srivastava, Sudhakar Singh, Pooja, Shiv Prakash,
Abstract要約: 手話はコミュニケーションに視覚を使う聴覚障害者の言語である。アメリカ手話(ASL)、中国手話(CSL)、インド手話(ISL)など、世界中で約300の手話が実践されている。
参考スコア（独自算出の注目度）: 1.9874264019909988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sign languages are the language of hearing-impaired people who use visuals like the hand, facial, and body movements for communication. There are different signs and gestures representing alphabets, words, and phrases. Nowadays approximately 300 sign languages are being practiced worldwide such as American Sign Language (ASL), Chinese Sign Language (CSL), Indian Sign Language (ISL), and many more. Sign languages are dependent on the vocal language of a place. Unlike vocal or spoken languages, there are no helping words in sign language like is, am, are, was, were, will, be, etc. As only a limited population is well-versed in sign language, this lack of familiarity of sign language hinders hearing-impaired people from communicating freely and easily with everyone. This issue can be addressed by a sign language recognition (SLR) system which has the capability to translate the sign language into vocal language. In this paper, a continuous SLR system is proposed using a deep learning model employing Long Short-Term Memory (LSTM), trained and tested on an ISL primary dataset. This dataset is created using MediaPipe Holistic pipeline for tracking face, hand, and body movements and collecting landmarks. The system recognizes the signs and gestures in real-time with 88.23% accuracy.
Abstract（参考訳）: 手話は、手、顔、体の動きなどの視覚をコミュニケーションに用いている聴覚障害者の言語である。アルファベット、単語、フレーズを表す記号やジェスチャーは様々である。現在、アメリカ手話(ASL)、中国手話(CSL)、インド手話(ISL)など、世界中で約300の手話が実践されている。記号言語は、ある場所の音声言語に依存する。音声言語や音声言語とは異なり、a, am, are, was, would, be など手話で助ける言葉は存在しない。限られた人口だけが手話に精通しているため、手話に精通していないことで、聴覚障害者が誰とも自由に簡単にコミュニケーションできなくなる。この問題は手話認識(SLR)システムによって対処できる。本稿では,Long Short-Term Memory (LSTM) を用いたディープラーニングモデルを用いて,ISLプライマリデータセット上での学習とテストを行う。このデータセットはMediaPipe Holisticパイプラインを使用して、顔、手、体の動きを追跡し、ランドマークを収集する。このシステムは88.23%の精度でリアルタイムでサインとジェスチャーを認識する。

関連論文リスト

Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2024-07-17T14:16:35Z)
Image-based Indian Sign Language Recognition: A Practical Review using Deep Neural Networks [0.0]
このモデルは、手話をテキストに変換するリアルタイムな単語レベル手話認識システムを開発することを目的としている。この分析のために、ユーザはWebカメラを使って手の動きの写真を撮らなければならない。我々のモデルは畳み込みニューラルネットワーク(CNN)を用いて訓練され、画像の認識に使用される。
論文参考訳（メタデータ） (2023-04-28T09:27:04Z)
Indian Sign Language Recognition Using Mediapipe Holistic [0.0]
インド手話をテキストや音声に変換するために,手話認識のための堅牢なシステムを構築する。サイン言語に依存した聴覚障害と難聴者のコミュニケーション能力を高めるため、テキスト・ツー・サイン言語パラダイムの作成が不可欠である。
論文参考訳（メタデータ） (2023-04-20T12:25:47Z)
All You Need In Sign Language Production [50.3955314892191]
言語認識と生産のサインは、いくつかの重要な課題に対処する必要があります。本稿では,難聴文化,難聴センター,手話の心理的視点について紹介する。また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。
論文参考訳（メタデータ） (2022-01-05T13:45:09Z)
Sign Language Recognition System using TensorFlow Object Detection API [0.0]
本稿では,Webカメラを用いてインド手話データセットを作成し,次に移動学習を用いて,リアルタイム手話認識システムを構築するためのモデルを訓練する手法を提案する。システムは、限られたサイズのデータセットであっても、良好な精度を達成する。
論文参考訳（メタデータ） (2022-01-05T07:13:03Z)
Mandarin-English Code-switching Speech Recognition with Self-supervised Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文参考訳（メタデータ） (2021-10-07T14:43:35Z)
Sign Language Production: A Review [51.07720650677784]
手話 (Sign Language) は、聴覚障害と聴覚障害のコミュニティで使われるコミュニケーション言語である。聴覚障害者と聴覚コミュニティのコミュニケーションを容易かつ相互に行うためには、話し言葉を手話に翻訳できる堅牢なシステムを構築することが不可欠です。そのために、手話認識と生産は、このような双方向システムを作るのに必要な2つの部分です。
論文参考訳（メタデータ） (2021-03-29T19:38:22Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Novel Approach to Use HU Moments with Image Processing Techniques for Real Time Sign Language Communication [0.0]
手話通信装置(SLC)は,手話利用者と他国との言語障壁を解決するために設計されている。システムは選択した手話記号を84%の精度で認識できる。
論文参考訳（メタデータ） (2020-07-20T03:10:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。