論文の概要: Real-Time Sign Language to text Translation using Deep Learning: A Comparative study of LSTM and 3D CNN
- arxiv url: http://arxiv.org/abs/2510.13137v1
- Date: Wed, 15 Oct 2025 04:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.494629
- Title: Real-Time Sign Language to text Translation using Deep Learning: A Comparative study of LSTM and 3D CNN
- Title(参考訳): ディープラーニングを用いたリアルタイム手話のテキスト翻訳:LSTMと3D CNNの比較研究
- Authors: Madhumati Pol, Anvay Anturkar, Anushka Khot, Ayush Andure, Aniruddha Ghosh, Anvit Magadum, Anvay Bahadur,
- Abstract要約: 本研究では,リアルタイムアメリカ手話(ASL)のための3次元時間的ニューラルネットワーク(3D CNN)とLong Short-Term Memory(LSTM)ネットワークの性能について検討する。
実験の結果、3D CNNは92.4%の精度で認識できるが、LSTMに比べて3.2%の処理時間を必要とすることがわかった。
このプロジェクトでは,エッジコンピューティング環境における認識精度とリアルタイム運用要件とのトレードオフを強調した,補助技術開発のためのプロフェッショナルベンチマークを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the performance of 3D Convolutional Neural Networks (3D CNNs) and Long Short-Term Memory (LSTM) networks for real-time American Sign Language (ASL) recognition. Though 3D CNNs are good at spatiotemporal feature extraction from video sequences, LSTMs are optimized for modeling temporal dependencies in sequential data. We evaluate both architectures on a dataset containing 1,200 ASL signs across 50 classes, comparing their accuracy, computational efficiency, and latency under similar training conditions. Experimental results demonstrate that 3D CNNs achieve 92.4% recognition accuracy but require 3.2% more processing time per frame compared to LSTMs, which maintain 86.7% accuracy with significantly lower resource consumption. The hybrid 3D CNNLSTM model shows decent performance, which suggests that context-dependent architecture selection is crucial for practical implementation.This project provides professional benchmarks for developing assistive technologies, highlighting trade-offs between recognition precision and real-time operational requirements in edge computing environments.
- Abstract(参考訳): 本研究では,3次元畳み込みニューラルネットワーク(3D CNN)とLong Short-Term Memory(LSTM)のリアルタイムアメリカ手話認識性能について検討した。
3次元CNNはビデオシーケンスからの時空間特徴抽出に長けているが,LSTMは時系列データの時間依存性のモデル化に最適化されている。
両アーキテクチャを,50のクラスに1200のASL符号を含むデータセット上で評価し,その精度,計算効率,遅延を類似の訓練条件下で比較した。
実験の結果、3D CNNは92.4%の精度で認識できるが、LSTMに比べて3.2%の処理時間を必要とすることがわかった。
ハイブリッド3D CNNLSTMモデルでは、コンテキスト依存アーキテクチャの選択が実用的な実装に不可欠であることが示唆され、このプロジェクトでは、認識精度とエッジコンピューティング環境におけるリアルタイム運用要件とのトレードオフを強調し、補助技術を開発するためのプロフェッショナルなベンチマークを提供する。
関連論文リスト
- Three-Class Text Sentiment Analysis Based on LSTM [0.0]
本稿では,Long Short-Term Memory (LSTM) ネットワークを用いたWeiboコメントの3クラス感情分類手法を提案する。
実験の結果、優れた性能を示し、精度は98.31%、F1スコアは98.28%に達した。
論文 参考訳(メタデータ) (2024-12-23T07:21:07Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - Hybrid CNN Bi-LSTM neural network for Hyperspectral image classification [1.2691047660244332]
本稿では,3次元CNN,2次元CNN,Bi-LSTMを組み合わせたニューラルネットワークを提案する。
99.83、99.98、100%の精度を達成でき、それぞれIP、PU、SAデータセットにおける最先端モデルのトレーニング可能なパラメータは30%に過ぎなかった。
論文 参考訳(メタデータ) (2024-02-15T15:46:13Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Decoding ECoG signal into 3D hand translation using deep learning [3.20238141000059]
運動脳-コンピュータインターフェース(Motor Brain-Computer Interface、BCI)は、運動障害者が環境と対話できる技術である。
連続手の動きを予測するために使用されるほとんどのECoG信号デコーダは線形モデルである。
多くの問題において最先端のディープラーニングモデルは、この関係をよりよく捉えるための解決策になり得る。
論文 参考訳(メタデータ) (2021-10-05T15:41:04Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Drowsiness Detection Based On Driver Temporal Behavior Using a New
Developed Dataset [1.8811803364757564]
顔の特徴を自動的に抽出するためにYOLOv3 (You Look Only Once-version3) CNNを適用した。
そして、LSTMニューラルネットワークを用いて、あくびや点滅時間などのドライバーの時間行動を学ぶ。
以上の結果から,CNNとLSTMの併用による眠気検出と提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2021-03-31T21:15:29Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z) - Exploiting the ConvLSTM: Human Action Recognition using Raw Depth
Video-Based Recurrent Neural Networks [0.0]
本稿では,畳み込み長短期記憶ユニット,すなわちConvLSTMに基づく2つのニューラルネットワークを提案し,比較する。
提案モデルは,最先端手法と比較して,計算コストの低い競合認識精度を実現する。
論文 参考訳(メタデータ) (2020-06-13T23:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。