論文の概要: Real-Time American Sign Language Recognition Using 3D Convolutional Neural Networks and LSTM: Architecture, Training, and Deployment
- arxiv url: http://arxiv.org/abs/2512.22177v1
- Date: Fri, 19 Dec 2025 00:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.09977
- Title: Real-Time American Sign Language Recognition Using 3D Convolutional Neural Networks and LSTM: Architecture, Training, and Deployment
- Title(参考訳): 3次元畳み込みニューラルネットワークとLSTMを用いたリアルタイムアメリカ手話認識:アーキテクチャ,トレーニング,展開
- Authors: Dawnena Key,
- Abstract要約: 本稿では,ハイブリッドディープラーニングアーキテクチャを用いたリアルタイムアメリカ手話認識システムを提案する。
このシステムはWebカメラのビデオストリームを処理し、ワードレベルのASLのサインを認識し、全世界で7000万人以上の聴覚障害や難聴者のコミュニケーション障壁に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a real-time American Sign Language (ASL) recognition system utilizing a hybrid deep learning architecture combining 3D Convolutional Neural Networks (3D CNN) with Long Short-Term Memory (LSTM) networks. The system processes webcam video streams to recognize word-level ASL signs, addressing communication barriers for over 70 million deaf and hard-of-hearing individuals worldwide. Our architecture leverages 3D convolutions to capture spatial-temporal features from video frames, followed by LSTM layers that model sequential dependencies inherent in sign language gestures. Trained on the WLASL dataset (2,000 common words), ASL-LEX lexical database (~2,700 signs), and a curated set of 100 expert-annotated ASL signs, the system achieves F1-scores ranging from 0.71 to 0.99 across sign classes. The model is deployed on AWS infrastructure with edge deployment capability on OAK-D cameras for real-time inference. We discuss the architecture design, training methodology, evaluation metrics, and deployment considerations for practical accessibility applications.
- Abstract(参考訳): 本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とLong Short-Term Memory(LSTM)ネットワークを組み合わせたハイブリッドディープラーニングアーキテクチャを用いたリアルタイムアメリカ手話認識システムを提案する。
このシステムはウェブカメラのビデオストリームを処理し、ワードレベルのASL記号を認識し、世界中の7000万人以上の聴覚障害者のためのコミュニケーション障壁に対処する。
我々のアーキテクチャは3次元畳み込みを利用してビデオフレームから空間時間的特徴をキャプチャし、次に手話ジェスチャーに固有の逐次的依存関係をモデル化するLSTM層を用いる。
WLASLデータセット(2000の共通語)、ASL-LEX語彙データベース(約2,700の記号)、100のエキスパートアノテートされたASL符号のキュレートされたセットに基づいて、システムは符号クラス全体で0.71から0.99までのF1スコアを達成している。
このモデルは、リアルタイム推論のために、OAK-Dカメラにエッジデプロイメント機能を備えたAWSインフラストラクチャにデプロイされる。
本稿では,実用的なアクセシビリティアプリケーションのためのアーキテクチャ設計,トレーニング方法論,評価指標,デプロイメントの考察について論じる。
関連論文リスト
- Lost in Translation, Found in Embeddings: Sign Language Translation and Alignment [84.39962912136525]
我々は手話翻訳(SLT)と手話字幕アライメント(SSA)を実行する手話理解モデルを開発する。
i)人間のキーポイントと唇領域の画像から手動と非手動のキューをキャプチャする軽量な視覚バックボーン,(ii)連続的な視覚特徴を単語レベルの埋め込みに集約するスライディングパーシーバーマッピングネットワーク,(iii)SLTとSSAを協調的に最適化するマルチタスクスケーラブルなトレーニング戦略である。
論文 参考訳(メタデータ) (2025-12-08T21:05:46Z) - Real-Time Sign Language to text Translation using Deep Learning: A Comparative study of LSTM and 3D CNN [0.0]
本研究では,リアルタイムアメリカ手話(ASL)のための3次元時間的ニューラルネットワーク(3D CNN)とLong Short-Term Memory(LSTM)ネットワークの性能について検討する。
実験の結果、3D CNNは92.4%の精度で認識できるが、LSTMに比べて3.2%の処理時間を必要とすることがわかった。
このプロジェクトでは,エッジコンピューティング環境における認識精度とリアルタイム運用要件とのトレードオフを強調した,補助技術開発のためのプロフェッショナルベンチマークを提供する。
論文 参考訳(メタデータ) (2025-10-15T04:26:33Z) - SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。
SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。
SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - Using CSNNs to Perform Event-based Data Processing & Classification on ASL-DVS [0.0]
ASL-DVSジェスチャデータセットにおける空間的および時間的関係を学習するための畳み込みスパイクニューラルネットワークアーキテクチャを開発した。
ASL-DVSデータセットの事前処理したサブセットの分類を行い、文字記号を識別し、100%の訓練精度を得た。
論文 参考訳(メタデータ) (2024-08-01T14:49:43Z) - Hierarchical I3D for Sign Spotting [39.69485385546803]
我々は、孤立した手話認識ではなく、手話認識の課題に焦点を当てる。
粗い時間的符号特徴を学習する階層的な符号スポッティング手法を提案する。
我々は,ChaLearn 2022 Sign Spotting Challengeの優勝1位である最先端の0.607 F1スコアを達成した。
論文 参考訳(メタデータ) (2022-10-03T14:07:23Z) - Multi-View Spatial-Temporal Network for Continuous Sign Language
Recognition [0.76146285961466]
本稿では,多視点空間時間連続手話認識ネットワークを提案する。
2つの公開手話データセット SLR-100 と PHOENIX-Weather 2014T (RWTH) でテストされている。
論文 参考訳(メタデータ) (2022-04-19T08:43:03Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。