論文の概要: Developing Lightweight DNN Models With Limited Data For Real-Time Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2507.00248v1
- Date: Mon, 30 Jun 2025 20:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.831622
- Title: Developing Lightweight DNN Models With Limited Data For Real-Time Sign Language Recognition
- Title(参考訳): リアルタイム手話認識のための限定データを用いた軽量DNNモデルの開発
- Authors: Nikita Nikitin, Eugene Fomin,
- Abstract要約: 限られたデータに基づいて訓練された軽量DNNを用いて,リアルタイム手話認識のための新しいフレームワークを提案する。
本システムは,データ不足,高い計算コスト,トレーニング環境と推論環境のフレームレートの相違など,手話認識における重要な課題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel framework for real-time sign language recognition using lightweight DNNs trained on limited data. Our system addresses key challenges in sign language recognition, including data scarcity, high computational costs, and discrepancies in frame rates between training and inference environments. By encoding sign language specific parameters, such as handshape, palm orientation, movement, and location into vectorized inputs, and leveraging MediaPipe for landmark extraction, we achieve highly separable input data representations. Our DNN architecture, optimized for sub 10MB deployment, enables accurate classification of 343 signs with less than 10ms latency on edge devices. The data annotation platform 'slait data' facilitates structured labeling and vector extraction. Our model achieved 92% accuracy in isolated sign recognition and has been integrated into the 'slait ai' web application, where it demonstrates stable inference.
- Abstract(参考訳): 限られたデータに基づいて訓練された軽量DNNを用いて,リアルタイム手話認識のための新しいフレームワークを提案する。
本システムは,データ不足,高い計算コスト,トレーニング環境と推論環境のフレームレートの相違など,手話認識における重要な課題に対処する。
手形、手のひら方向、移動、位置などの手話固有のパラメータをベクトル化された入力に符号化し、MediaPipeをランドマーク抽出に活用することにより、高度に分離可能な入力データ表現を実現する。
DNNアーキテクチャは10MB以下のデプロイメントに最適化されており、エッジデバイス上で10ms以下のレイテンシで343のサインを正確に分類することが可能です。
データアノテーションプラットフォーム'slait data'は構造化ラベリングとベクトル抽出を容易にする。
分離された手話認識において92%の精度を達成し,安定な推論を示す 'slait ai' Web アプリケーションに統合した。
関連論文リスト
- Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Sign language recognition based on deep learning and low-cost handcrafted descriptors [0.0]
単語間のあいまいさを避けるため,ジェスチャ実行においてできるだけ多くの言語パラメータを考慮することが重要である。
選択した技術がリアルであることを保証することが不可欠であり、高価な、侵入的、または低運動量のセンサーを避ける。
低コストなセンサと技術を用いた手話認識システムを提案する。
論文 参考訳(メタデータ) (2024-08-14T00:56:51Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。
我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。
我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文 参考訳(メタデータ) (2023-03-19T22:15:05Z) - ArabSign: A Multi-modality Dataset and Benchmark for Continuous Arabic
Sign Language Recognition [1.2691047660244335]
ArabSignデータセットは、6人の署名者が実行した9,335のサンプルで構成されている。
記録された文の総時間はおよそ10時間であり、平均的な文の長さは3.1の記号である。
連続型ArSL認識のためのエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2022-10-08T07:36:20Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。