論文の概要: Real-Time Sign Language Gestures to Speech Transcription using Deep Learning
- arxiv url: http://arxiv.org/abs/2508.12713v1
- Date: Mon, 18 Aug 2025 08:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.083666
- Title: Real-Time Sign Language Gestures to Speech Transcription using Deep Learning
- Title(参考訳): ディープラーニングを用いた音声認識のためのリアルタイム手話ジェスチャ
- Authors: Brandone Fonya,
- Abstract要約: 本研究は,手話のジェスチャーをテキストおよび可聴音声に変換するために,高度なディープラーニング技術を活用するリアルタイム支援技術ソリューションを提案する。
Sign Language MNISTデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)を使用することで、システムはWebカメラを介してキャプチャされた手の動きを正確に分類する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication barriers pose significant challenges for individuals with hearing and speech impairments, often limiting their ability to effectively interact in everyday environments. This project introduces a real-time assistive technology solution that leverages advanced deep learning techniques to translate sign language gestures into textual and audible speech. By employing convolution neural networks (CNN) trained on the Sign Language MNIST dataset, the system accurately classifies hand gestures captured live via webcam. Detected gestures are instantaneously translated into their corresponding meanings and transcribed into spoken language using text-to-speech synthesis, thus facilitating seamless communication. Comprehensive experiments demonstrate high model accuracy and robust real-time performance with some latency, highlighting the system's practical applicability as an accessible, reliable, and user-friendly tool for enhancing the autonomy and integration of sign language users in diverse social settings.
- Abstract(参考訳): コミュニケーション障壁は聴覚障害や音声障害を持つ個人にとって重大な課題であり、日常の環境で効果的に対話する能力を制限することがしばしばある。
本研究は,手話のジェスチャーをテキストおよび可聴音声に変換するために,高度なディープラーニング技術を活用するリアルタイム支援技術ソリューションを提案する。
Sign Language MNISTデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)を使用することで、システムはWebカメラを介してキャプチャされた手の動きを正確に分類する。
検出されたジェスチャーは、瞬時に対応する意味に翻訳され、テキスト音声合成を用いて音声言語に書き起こされ、シームレスなコミュニケーションが容易になる。
総合的な実験では、ある程度のレイテンシで高いモデル精度と堅牢なリアルタイムパフォーマンスを示し、さまざまなソーシャル環境で手話ユーザの自律性と統合を強化するための、アクセス可能で信頼性があり、ユーザフレンドリなツールとしてのシステムの実用性を強調している。
関連論文リスト
- Indian Sign Language Detection for Real-Time Translation using Machine Learning [0.1747623282473278]
畳み込みニューラルネットワーク(CNN)を用いた頑健でリアルタイムなISL検出・翻訳システムを提案する。
我々のモデルは総合的なISLデータセットに基づいて訓練され、99.95%の分類精度を達成し、例外的な性能を示す。
リアルタイム実装のために、このフレームワークはMediaPipeを統合して手の動きを正確に追跡し、動的ジェスチャーをシームレスに翻訳する。
論文 参考訳(メタデータ) (2025-07-27T21:15:46Z) - Gesture-Aware Zero-Shot Speech Recognition for Patients with Language Disorders [10.664605070306417]
音声障害者を対象としたゼロショット学習によるジェスチャー認識自動音声認識(ASR)システムを提案する。
実験結果と分析結果から,ジェスチャー情報を含むと意味理解が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T14:15:55Z) - OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [73.03333371375]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - A Transformer-Based Multi-Stream Approach for Isolated Iranian Sign Language Recognition [0.0]
本研究の目的は,イラン手話語をトランスフォーマーなどの最新のディープラーニングツールの助けを借りて認識することである。
使用されるデータセットには、大学などの学術環境で頻繁に使用されるイラン手話101語が含まれている。
論文 参考訳(メタデータ) (2024-06-27T06:54:25Z) - TRAVID: An End-to-End Video Translation Framework [1.6131714685439382]
本稿では、音声言語を翻訳するだけでなく、翻訳された音声と話者の唇の動きを同期するエンドツーエンドのビデオ翻訳システムを提案する。
本システムは,インド諸言語における教育講義の翻訳に重点を置いており,低リソースのシステム設定においても有効であるように設計されている。
論文 参考訳(メタデータ) (2023-09-20T14:13:05Z) - Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。
ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文 参考訳(メタデータ) (2020-10-11T08:27:07Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。