論文の概要: Sign Language Recognition based on YOLOv5 Algorithm for the Telugu Sign Language
- arxiv url: http://arxiv.org/abs/2406.10231v1
- Date: Wed, 24 Apr 2024 18:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:50:27.592420
- Title: Sign Language Recognition based on YOLOv5 Algorithm for the Telugu Sign Language
- Title(参考訳): Telugu手話のためのYOLOv5アルゴリズムに基づく手話認識
- Authors: Vipul Reddy. P, Vishnu Vardhan Reddy. B, Sukriti,
- Abstract要約: 本稿では、YOLOv5オブジェクト識別フレームワークを用いて、TSL内のジェスチャーを識別する新しい手法を提案する。
YOLOv5を使ってジェスチャーを認識して分類するディープラーニングモデルが開発された。
各種のTSLジェスチャーおよび設定に対するシステムの安定性と一般化性は厳密なテストと検証によって評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language recognition (SLR) technology has enormous promise to improve communication and accessibility for the difficulty of hearing. This paper presents a novel approach for identifying gestures in TSL using the YOLOv5 object identification framework. The main goal is to create an accurate and successful method for identifying TSL gestures so that the deaf community can use slr. After that, a deep learning model was created that used the YOLOv5 to recognize and classify gestures. This model benefited from the YOLOv5 architecture's high accuracy, speed, and capacity to handle complex sign language features. Utilizing transfer learning approaches, the YOLOv5 model was customized to TSL gestures. To attain the best outcomes, careful parameter and hyperparameter adjustment was carried out during training. With F1-score and mean Average Precision (mAP) ratings of 90.5% and 98.1%, the YOLOv5-medium model stands out for its outstanding performance metrics, demonstrating its efficacy in Telugu sign language identification tasks. Surprisingly, this model strikes an acceptable balance between computational complexity and training time to produce these amazing outcomes. Because it offers a convincing blend of accuracy and efficiency, the YOLOv5-medium model, trained for 200 epochs, emerges as the recommended choice for real-world deployment. The system's stability and generalizability across various TSL gestures and settings were evaluated through rigorous testing and validation, which yielded outstanding accuracy. This research lays the foundation for future advancements in accessible technology for linguistic communities by providing a cutting-edge application of deep learning and computer vision techniques to TSL gesture identification. It also offers insightful perspectives and novel approaches to the field of sign language recognition.
- Abstract(参考訳): 手話認識(SLR)技術は、難聴者に対するコミュニケーションとアクセシビリティを向上させるという大きな可能性を秘めている。
本稿では、YOLOv5オブジェクト識別フレームワークを用いて、TSL内のジェスチャーを識別する新しい手法を提案する。
主な目標は、聴覚障害者コミュニティがslrを使用できるように、TSLジェスチャを特定するための正確で成功した方法を作ることである。
その後、YOLOv5を使ってジェスチャーを認識し分類するディープラーニングモデルが作成された。
このモデルはYOLOv5アーキテクチャの複雑な手話機能を扱うための高い精度、速度、能力の恩恵を受けている。
転送学習のアプローチを利用して、YOLOv5モデルはTSLジェスチャーにカスタマイズされた。
最高の結果を得るために、トレーニング中に慎重にパラメータとハイパーパラメータを調整した。
F1スコアと平均平均精度 (mAP) は90.5%と98.1%であり、YOLOv5-mediumモデルは卓越したパフォーマンス指標で際立っている。
驚くべきことに、このモデルは計算複雑性とトレーニング時間の間に許容可能なバランスを取り、これらの驚くべき結果を生み出す。
精度と効率の十分なブレンドを提供するため、200エポックでトレーニングされたYOLOv5-mediumモデルは、現実のデプロイメントに推奨される選択肢として現れます。
各種のTSLジェスチャーおよび設定に対するシステムの安定性と一般化性は厳密なテストと検証によって評価され、精度は著しく向上した。
本研究は、深層学習とコンピュータビジョン技術の最先端の応用をTSLジェスチャ識別に適用することにより、言語コミュニティにおけるアクセス可能な技術の発展の基盤となるものである。
また、手話認識の分野に対する洞察力のある視点と新しいアプローチも提供する。
関連論文リスト
- SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。
HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。
SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Sign language recognition based on deep learning and low-cost handcrafted descriptors [0.0]
単語間のあいまいさを避けるため,ジェスチャ実行においてできるだけ多くの言語パラメータを考慮することが重要である。
選択した技術がリアルであることを保証することが不可欠であり、高価な、侵入的、または低運動量のセンサーを避ける。
低コストなセンサと技術を用いた手話認識システムを提案する。
論文 参考訳(メタデータ) (2024-08-14T00:56:51Z) - PenSLR: Persian end-to-end Sign Language Recognition Using Ensembling [0.953605234706973]
Pen SLRは、IMU(Inertial Measurement Unit)とディープラーニングフレームワークによって駆動される5つのフレキシブルセンサーで構成されるグローブベースの手話システムである。
本稿では,スターアライメント(Star Alignment)と呼ばれる複数のシーケンスアライメントアルゴリズムを活用することで,新しいアンサンブル手法を提案する。
評価の結果,Pen SLRの単語精度は94.58%,96.70%であった。
論文 参考訳(メタデータ) (2024-06-24T07:59:34Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。