論文の概要: Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN)
- arxiv url: http://arxiv.org/abs/2406.03729v2
- Date: Tue, 27 Aug 2024 10:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 19:09:27.367778
- Title: Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN)
- Title(参考訳): メディアパイプと畳み込みニューラルネットワーク(CNN)による手話検出の強化
- Authors: Aditya Raj Verma, Gagandeep Singh, Karnim Meghwal, Banawath Ramji, Praveen Kumar Dadheech,
- Abstract要約: この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
- 参考スコア(独自算出の注目度): 3.192629447369627
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This research combines MediaPipe and CNNs for the efficient and accurate interpretation of ASL dataset for the real-time detection of sign language. The system presented here captures and processes hands' gestures in real time. the intended purpose was to create a very easy, accurate, and fast way of entering commands without the necessity of touching something.MediaPipe supports one of the powerful frameworks in real-time hand tracking capabilities for the ability to capture and preprocess hand movements, which increases the accuracy of the gesture recognition system. Actually, the integration of CNN with the MediaPipe results in higher efficiency in using the model of real-time processing.The accuracy achieved by the model on ASL datasets is 99.12\%.The model was tested using American Sign Language (ASL) datasets. The results were then compared to those of existing methods to evaluate how well it performed, using established evaluation techniques. The system will have applications in the communication, education, and accessibility domains. Making systems such as described in this paper even better will assist people with hearing impairment and make things accessible to them. We tested the recognition and translation performance on an ASL dataset and achieved better accuracy over previous models.It is meant to the research is to identify the characters that American signs recognize using hand images taken from a web camera by based on mediapipe and CNNs
- Abstract(参考訳): 本研究ではMediaPipeとCNNを組み合わせて,手話のリアルタイム検出のためのASLデータセットの効率的かつ正確な解釈を行う。
ここで提示されたシステムは、リアルタイムで手の動きをキャプチャして処理する。
目的は、何かに触れる必要なく、非常に簡単で正確で高速なコマンド入力方法を作ることであった。MediaPipeは、リアルタイムハンドトラッキング機能において強力なフレームワークの1つをサポートし、手の動きをキャプチャし、前処理することが可能で、ジェスチャー認識システムの精度が向上する。
実際、CNNとMediaPipeの統合により、リアルタイム処理モデルの使用効率が向上し、ASLデータセット上でのモデルによる精度は99.12\%となる。
このモデルはAmerican Sign Language (ASL)データセットを用いてテストされた。
その結果,確立した評価手法を用いて,既存の評価手法と比較した。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
この論文で述べられているようなシステムの構築は、聴力障害のある人々を支援し、それらにアクセスできるようにする。
ASLデータセットの認識と翻訳性能を検証し,メディアパイプとCNNを用いて,アメリカの標識がWebカメラから撮影した手画像を用いて認識する文字を特定することを目的とした。
関連論文リスト
- Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Mediapipe and CNNs for Real-Time ASL Gesture Recognition [0.1529342790344802]
本稿では,アメリカ手話(ASL)の動きをリアルタイムに識別するシステムについて述べる。
提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。
論文 参考訳(メタデータ) (2023-05-09T09:35:45Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Combining Efficient and Precise Sign Language Recognition: Good pose
estimation library is all you need [2.9005223064604078]
サイン言語認識は、一般消費者技術を持つd/deafのユーザエクスペリエンスを大幅に改善する可能性がある。
現在の手話認識アーキテクチャは通常計算量が多いため、リアルタイムに動作させるためには、堅牢なGPU装備のハードウェアが必要である。
我々はSPOTERアーキテクチャを構築し、これはこのタスクに使用される大規模モデルの性能に近いものである。
論文 参考訳(メタデータ) (2022-09-30T17:30:32Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions and Skeletal Information [7.667316027377616]
単語レベル手話認識(WSLR)は,言語障害のある人と聞き取れる人のコミュニケーション障壁を克服することが期待されているため,注目されている。
動作認識のために設計された手法は最先端の精度を実現した。
本稿では,WSLR問題に特に有用な情報を考慮した新しいWSLR手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:30:06Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。