論文の概要: Indian Sign Language Detection for Real-Time Translation using Machine Learning
- arxiv url: http://arxiv.org/abs/2507.20414v2
- Date: Thu, 31 Jul 2025 08:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.686352
- Title: Indian Sign Language Detection for Real-Time Translation using Machine Learning
- Title(参考訳): 機械学習を用いたリアルタイム翻訳のためのインド手話検出
- Authors: Rajat Singhal, Jatin Gupta, Akhil Sharma, Anushka Gupta, Navya Sharma,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)を用いた頑健でリアルタイムなISL検出・翻訳システムを提案する。
我々のモデルは総合的なISLデータセットに基づいて訓練され、99.95%の分類精度を達成し、例外的な性能を示す。
リアルタイム実装のために、このフレームワークはMediaPipeを統合して手の動きを正確に追跡し、動的ジェスチャーをシームレスに翻訳する。
- 参考スコア(独自算出の注目度): 0.1747623282473278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gestural language is used by deaf & mute communities to communicate through hand gestures & body movements that rely on visual-spatial patterns known as sign languages. Sign languages, which rely on visual-spatial patterns of hand gestures & body movements, are the primary mode of communication for deaf & mute communities worldwide. Effective communication is fundamental to human interaction, yet individuals in these communities often face significant barriers due to a scarcity of skilled interpreters & accessible translation technologies. This research specifically addresses these challenges within the Indian context by focusing on Indian Sign Language (ISL). By leveraging machine learning, this study aims to bridge the critical communication gap for the deaf & hard-of-hearing population in India, where technological solutions for ISL are less developed compared to other global sign languages. We propose a robust, real-time ISL detection & translation system built upon a Convolutional Neural Network (CNN). Our model is trained on a comprehensive ISL dataset & demonstrates exceptional performance, achieving a classification accuracy of 99.95%. This high precision underscores the model's capability to discern the nuanced visual features of different signs. The system's effectiveness is rigorously evaluated using key performance metrics, including accuracy, F1 score, precision & recall, ensuring its reliability for real-world applications. For real-time implementation, the framework integrates MediaPipe for precise hand tracking & motion detection, enabling seamless translation of dynamic gestures. This paper provides a detailed account of the model's architecture, the data preprocessing pipeline & the classification methodology. The research elaborates the model architecture, preprocessing & classification methodologies for enhancing communication in deaf & mute communities.
- Abstract(参考訳): 声道言語は、手話として知られる視覚空間パターンに依存する手の動きや身体の動きを通じてコミュニケーションするために、聴覚とミュートコミュニティによって使用される。
手の動きや身体の動きの視覚的空間的パターンに依存する手話は、世界中の聴覚・ミュートコミュニティにとって主要なコミュニケーション手段である。
効果的なコミュニケーションは人間同士の対話に不可欠であるが、熟練した通訳や翻訳技術が不足しているため、これらのコミュニティの個人は重大な障壁に直面していることが多い。
本研究は、インド手話(ISL)に着目して、インドの文脈におけるこれらの課題を具体的に解決する。
本研究は、機械学習を活用して、インドにおける難聴者や難聴者に対する重要なコミュニケーションギャップを埋めることを目的としている。
本稿では,畳み込みニューラルネットワーク(CNN)上に構築された,堅牢でリアルタイムなISL検出・翻訳システムを提案する。
我々のモデルは総合的なISLデータセットに基づいて訓練され、99.95%の分類精度を達成し、例外的な性能を示す。
この高精度さは、異なる記号のニュアンスな視覚的特徴を識別するモデルの能力を強調している。
システムの有効性は、精度、F1スコア、精度とリコール、実際のアプリケーションに対する信頼性の確保など、主要なパフォーマンス指標を使用して厳格に評価されている。
リアルタイム実装のために、このフレームワークはMediaPipeを統合して手の動きを正確に追跡し、動的ジェスチャーをシームレスに翻訳する。
本稿では,モデルアーキテクチャ,データ前処理パイプライン,分類手法について詳述する。
本研究は、聴覚・ミュートコミュニティにおけるコミュニケーションを強化するためのモデルアーキテクチャ、前処理および分類手法について詳述する。
関連論文リスト
- Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。