論文の概要: BdSpell: A YOLO-based Real-time Finger Spelling System for Bangla Sign
Language
- arxiv url: http://arxiv.org/abs/2309.13676v1
- Date: Sun, 24 Sep 2023 15:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 18:12:00.536658
- Title: BdSpell: A YOLO-based Real-time Finger Spelling System for Bangla Sign
Language
- Title(参考訳): BdSpell: Bangla手話のためのYOLOベースのリアルタイムフィンガースペルシステム
- Authors: Naimul Haque, Meraj Serker and Tariq Bin Bashar
- Abstract要約: YOLOv5アーキテクチャに基づく新しいリアルタイム指スペルシステムを提案する。
提案手法は,98%の精度で文字スペルを1.32秒で実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In the domain of Bangla Sign Language (BdSL) interpretation, prior approaches
often imposed a burden on users, requiring them to spell words without hidden
characters, which were subsequently corrected using Bangla grammar rules due to
the missing classes in BdSL36 dataset. However, this method posed a challenge
in accurately guessing the incorrect spelling of words. To address this
limitation, we propose a novel real-time finger spelling system based on the
YOLOv5 architecture. Our system employs specified rules and numerical classes
as triggers to efficiently generate hidden and compound characters, eliminating
the necessity for additional classes and significantly enhancing user
convenience. Notably, our approach achieves character spelling in an impressive
1.32 seconds with a remarkable accuracy rate of 98\%. Furthermore, our YOLOv5
model, trained on 9147 images, demonstrates an exceptional mean Average
Precision (mAP) of 96.4\%. These advancements represent a substantial
progression in augmenting BdSL interpretation, promising increased inclusivity
and accessibility for the linguistic minority. This innovative framework,
characterized by compatibility with existing YOLO versions, stands as a
transformative milestone in enhancing communication modalities and linguistic
equity within the Bangla Sign Language community.
- Abstract(参考訳): バングラ手話(BdSL)の解釈では、先行のアプローチはユーザに対してしばしば重荷を課し、隠れ文字なしで単語を綴り、その後BdSL36データセットの欠落クラスのためにバングラ文法規則を用いて修正された。
しかし、この手法は単語の誤綴を正確に推測する上で難題となった。
この制限に対処するため、YOLOv5アーキテクチャに基づく新しいリアルタイム指スペルシステムを提案する。
本システムでは、特定のルールと数値クラスをトリガーとして使用し、隠蔽文字と複合文字を効率的に生成し、追加クラスの必要性を排除し、ユーザ利便性を大幅に向上させる。
特に, 文字の綴り精度は98\%で, 印象的な1.32秒で達成した。
さらに、9147の画像に基づいてトレーニングしたYOLOv5モデルでは、平均精度が96.4\%の例外平均mAPが示される。
これらの進歩は、BdSLの解釈を増大させ、言語マイノリティの傾向とアクセシビリティを高めることを約束している。
この革新的な枠組みは、既存のyoloバージョンとの互換性を特徴とし、バングラ手話コミュニティにおけるコミュニケーションモダリティと言語的公平性を高めるための変革的なマイルストーンである。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Improving Gloss-free Sign Language Translation by Reducing Representation Density [38.24463842418624]
Gloss-free sign language translation (SLT) は、コストのかかるGlossアノテーションを必要とせずに、良好なパフォーマンスのSLTシステムを開発することを目的としている。
我々は、光沢のないSLTの性能を制限するボトルネックとなる表現密度問題を特定する。
比較学習戦略,すなわちSignCLを導入し,より差別的な特徴表現を学習するための光沢のないモデルを提案する。
論文 参考訳(メタデータ) (2024-05-23T08:32:58Z) - Sign Language Recognition based on YOLOv5 Algorithm for the Telugu Sign Language [0.0]
本稿では、YOLOv5オブジェクト識別フレームワークを用いて、TSL内のジェスチャーを識別する新しい手法を提案する。
YOLOv5を使ってジェスチャーを認識して分類するディープラーニングモデルが開発された。
各種のTSLジェスチャーおよび設定に対するシステムの安定性と一般化性は厳密なテストと検証によって評価された。
論文 参考訳(メタデータ) (2024-04-24T18:39:27Z) - Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks
for Accurate Bangla Sign Language Recognition [2.624902795082451]
我々は,40語以上の611ビデオからなる単語レベルBandgla Sign Languageデータセット(BdSL40)を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
論文 参考訳(メタデータ) (2024-01-22T18:52:51Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Word level Bangla Sign Language Dataset for Continuous BSL Recognition [0.0]
我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。
モデルの精度は85.64%と報告されている。
論文 参考訳(メタデータ) (2023-02-22T18:55:54Z) - Keypoint based Sign Language Translation without Glosses [7.240731862549344]
署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。
身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。
本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
論文 参考訳(メタデータ) (2022-04-22T05:37:56Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。