論文の概要: Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN)
- arxiv url: http://arxiv.org/abs/2406.03729v2
- Date: Tue, 27 Aug 2024 10:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 19:09:27.367778
- Title: Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN)
- Title(参考訳): メディアパイプと畳み込みニューラルネットワーク(CNN)による手話検出の強化
- Authors: Aditya Raj Verma, Gagandeep Singh, Karnim Meghwal, Banawath Ramji, Praveen Kumar Dadheech,
- Abstract要約: この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
- 参考スコア(独自算出の注目度): 3.192629447369627
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This research combines MediaPipe and CNNs for the efficient and accurate interpretation of ASL dataset for the real-time detection of sign language. The system presented here captures and processes hands' gestures in real time. the intended purpose was to create a very easy, accurate, and fast way of entering commands without the necessity of touching something.MediaPipe supports one of the powerful frameworks in real-time hand tracking capabilities for the ability to capture and preprocess hand movements, which increases the accuracy of the gesture recognition system. Actually, the integration of CNN with the MediaPipe results in higher efficiency in using the model of real-time processing.The accuracy achieved by the model on ASL datasets is 99.12\%.The model was tested using American Sign Language (ASL) datasets. The results were then compared to those of existing methods to evaluate how well it performed, using established evaluation techniques. The system will have applications in the communication, education, and accessibility domains. Making systems such as described in this paper even better will assist people with hearing impairment and make things accessible to them. We tested the recognition and translation performance on an ASL dataset and achieved better accuracy over previous models.It is meant to the research is to identify the characters that American signs recognize using hand images taken from a web camera by based on mediapipe and CNNs
- Abstract(参考訳): 本研究ではMediaPipeとCNNを組み合わせて,手話のリアルタイム検出のためのASLデータセットの効率的かつ正確な解釈を行う。
ここで提示されたシステムは、リアルタイムで手の動きをキャプチャして処理する。
目的は、何かに触れる必要なく、非常に簡単で正確で高速なコマンド入力方法を作ることであった。MediaPipeは、リアルタイムハンドトラッキング機能において強力なフレームワークの1つをサポートし、手の動きをキャプチャし、前処理することが可能で、ジェスチャー認識システムの精度が向上する。
実際、CNNとMediaPipeの統合により、リアルタイム処理モデルの使用効率が向上し、ASLデータセット上でのモデルによる精度は99.12\%となる。
このモデルはAmerican Sign Language (ASL)データセットを用いてテストされた。
その結果,確立した評価手法を用いて,既存の評価手法と比較した。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
この論文で述べられているようなシステムの構築は、聴力障害のある人々を支援し、それらにアクセスできるようにする。
ASLデータセットの認識と翻訳性能を検証し,メディアパイプとCNNを用いて,アメリカの標識がWebカメラから撮影した手画像を用いて認識する文字を特定することを目的とした。
関連論文リスト
- EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Mediapipe and CNNs for Real-Time ASL Gesture Recognition [0.1529342790344802]
本稿では,アメリカ手話(ASL)の動きをリアルタイムに識別するシステムについて述べる。
提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。
論文 参考訳(メタデータ) (2023-05-09T09:35:45Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Combining Efficient and Precise Sign Language Recognition: Good pose
estimation library is all you need [2.9005223064604078]
サイン言語認識は、一般消費者技術を持つd/deafのユーザエクスペリエンスを大幅に改善する可能性がある。
現在の手話認識アーキテクチャは通常計算量が多いため、リアルタイムに動作させるためには、堅牢なGPU装備のハードウェアが必要である。
我々はSPOTERアーキテクチャを構築し、これはこのタスクに使用される大規模モデルの性能に近いものである。
論文 参考訳(メタデータ) (2022-09-30T17:30:32Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - Efficient sign language recognition system and dataset creation method
based on deep learning and image processing [0.0]
本研究では,手話データセットを効果的に作成できるデジタル画像処理と機械学習の技術について検討する。
仮説をテストするために異なるデータセットが作成され、毎日14の単語が使われ、rgbカラーシステムで異なるスマートフォンによって記録された。
テストセットでは96.38%,検証セットでは81.36%の精度で,より困難な条件が得られた。
論文 参考訳(メタデータ) (2021-03-22T23:36:49Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Interpretation of Swedish Sign Language using Convolutional Neural
Networks and Transfer Learning [2.7629216089139934]
我々は、スウェーデン手話(SSL)ハンドアルファベットの記号をコンピュータが解釈できるように、畳み込みニューラルネットワーク(CNN)とトランスファーラーニングを用いている。
我々のモデルは、事前訓練されたInceptionV3ネットワークの実装と、ミニバッチ勾配勾配最適化アルゴリズムの使用から成り立っている。
モデルの最終精度は8人の被験者と9,400人の画像に基づいており、85%である。
論文 参考訳(メタデータ) (2020-10-15T15:34:09Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。