論文の概要: Nepali Sign Language Characters Recognition: Dataset Development and Deep Learning Approaches
- arxiv url: http://arxiv.org/abs/2510.11243v1
- Date: Mon, 13 Oct 2025 10:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.319932
- Title: Nepali Sign Language Characters Recognition: Dataset Development and Deep Learning Approaches
- Title(参考訳): ネパール手話文字認識:データセット開発とディープラーニングアプローチ
- Authors: Birat Poudel, Satyam Ghimire, Sijan Bhattarai, Saurav Bhandari, Suramya Sharma Dahal,
- Abstract要約: 本研究では,ネパール手話(NSL)の最初のベンチマークデータセットを紹介する。
認識性能を評価するため、データセット上でMobileNetV2とResNet50アーキテクチャを微調整し、それぞれ90.45%と88.78%の分類精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign languages serve as essential communication systems for individuals with hearing and speech impairments. However, digital linguistic dataset resources for underrepresented sign languages, such as Nepali Sign Language (NSL), remain scarce. This study introduces the first benchmark dataset for NSL, consisting of 36 gesture classes with 1,500 samples per class, designed to capture the structural and visual features of the language. To evaluate recognition performance, we fine-tuned MobileNetV2 and ResNet50 architectures on the dataset, achieving classification accuracies of 90.45% and 88.78%, respectively. These findings demonstrate the effectiveness of convolutional neural networks in sign recognition tasks, particularly within low-resource settings. To the best of our knowledge, this work represents the first systematic effort to construct a benchmark dataset and assess deep learning approaches for NSL recognition, highlighting the potential of transfer learning and fine-tuning for advancing research in underexplored sign languages.
- Abstract(参考訳): 手話は聴覚障害や音声障害を持つ個人にとって不可欠なコミュニケーションシステムである。
しかし、ネパール手話(NSL)のような、表現不足の手話のためのデジタル言語データセットリソースは依然として乏しい。
本研究では,言語の構造的特徴と視覚的特徴を捉えるために,36のジェスチャクラスと1,500のサンプルからなるNSLの最初のベンチマークデータセットを提案する。
認識性能を評価するため、データセット上でMobileNetV2とResNet50アーキテクチャを微調整し、それぞれ90.45%と88.78%の分類精度を達成した。
これらの結果は,特に低リソース環境において,手話認識タスクにおける畳み込みニューラルネットワークの有効性を示す。
我々の知る限り、この研究は、ベンチマークデータセットを構築し、NSL認識のためのディープラーニングアプローチを評価するための最初の体系的な取り組みであり、過度に探索された手話言語の研究を進めるための転写学習と微調整の可能性を強調している。
関連論文リスト
- Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition [0.20075899678041528]
本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。
このデータセットは、2002年に20人(男性10人、女性10人)の聴覚障害者が記録した聴覚障害者コミュニティで日常的に使われる一般的な単語をカバーしている。
人体上半身の骨格グラフを用いて,階層型ウィンドウドグラフ注意ネットワーク(HWGAT)というSL認識モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T11:48:36Z) - Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks
for Accurate Bangla Sign Language Recognition [2.624902795082451]
我々は,40語以上の611ビデオからなる単語レベルBandgla Sign Languageデータセット(BdSL40)を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
論文 参考訳(メタデータ) (2024-01-22T18:52:51Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - A Comprehensive Study on Deep Learning-based Methods for Sign Language
Recognition [14.714669469867871]
本研究の目的は,非セグメンテーションビデオストリームをグルースにマッピングすることに着目し,手話認識に関する洞察を提供することである。
私たちの知る限りでは、ビデオキャプチャのために文と光沢レベルのアノテーションが提供される最初の手話データセットです。
論文 参考訳(メタデータ) (2020-07-24T14:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。