論文の概要: BdSpell: A YOLO-based Real-time Finger Spelling System for Bangla Sign
Language
- arxiv url: http://arxiv.org/abs/2309.13676v1
- Date: Sun, 24 Sep 2023 15:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 18:12:00.536658
- Title: BdSpell: A YOLO-based Real-time Finger Spelling System for Bangla Sign
Language
- Title(参考訳): BdSpell: Bangla手話のためのYOLOベースのリアルタイムフィンガースペルシステム
- Authors: Naimul Haque, Meraj Serker and Tariq Bin Bashar
- Abstract要約: YOLOv5アーキテクチャに基づく新しいリアルタイム指スペルシステムを提案する。
提案手法は,98%の精度で文字スペルを1.32秒で実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In the domain of Bangla Sign Language (BdSL) interpretation, prior approaches
often imposed a burden on users, requiring them to spell words without hidden
characters, which were subsequently corrected using Bangla grammar rules due to
the missing classes in BdSL36 dataset. However, this method posed a challenge
in accurately guessing the incorrect spelling of words. To address this
limitation, we propose a novel real-time finger spelling system based on the
YOLOv5 architecture. Our system employs specified rules and numerical classes
as triggers to efficiently generate hidden and compound characters, eliminating
the necessity for additional classes and significantly enhancing user
convenience. Notably, our approach achieves character spelling in an impressive
1.32 seconds with a remarkable accuracy rate of 98\%. Furthermore, our YOLOv5
model, trained on 9147 images, demonstrates an exceptional mean Average
Precision (mAP) of 96.4\%. These advancements represent a substantial
progression in augmenting BdSL interpretation, promising increased inclusivity
and accessibility for the linguistic minority. This innovative framework,
characterized by compatibility with existing YOLO versions, stands as a
transformative milestone in enhancing communication modalities and linguistic
equity within the Bangla Sign Language community.
- Abstract(参考訳): バングラ手話(BdSL)の解釈では、先行のアプローチはユーザに対してしばしば重荷を課し、隠れ文字なしで単語を綴り、その後BdSL36データセットの欠落クラスのためにバングラ文法規則を用いて修正された。
しかし、この手法は単語の誤綴を正確に推測する上で難題となった。
この制限に対処するため、YOLOv5アーキテクチャに基づく新しいリアルタイム指スペルシステムを提案する。
本システムでは、特定のルールと数値クラスをトリガーとして使用し、隠蔽文字と複合文字を効率的に生成し、追加クラスの必要性を排除し、ユーザ利便性を大幅に向上させる。
特に, 文字の綴り精度は98\%で, 印象的な1.32秒で達成した。
さらに、9147の画像に基づいてトレーニングしたYOLOv5モデルでは、平均精度が96.4\%の例外平均mAPが示される。
これらの進歩は、BdSLの解釈を増大させ、言語マイノリティの傾向とアクセシビリティを高めることを約束している。
この革新的な枠組みは、既存のyoloバージョンとの互換性を特徴とし、バングラ手話コミュニティにおけるコミュニケーションモダリティと言語的公平性を高めるための変革的なマイルストーンである。
関連論文リスト
- Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks
for Accurate Bangla Sign Language Recognition [2.624902795082451]
我々は,40語以上の611ビデオからなる単語レベルBandgla Sign Languageデータセット(BdSL40)を提案する。
これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。
この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
論文 参考訳(メタデータ) (2024-01-22T18:52:51Z) - SignDiff: Learning Diffusion Models for American Sign Language
Production [27.899654531461238]
サイン言語生産の分野には、過去10年間に連続したアメリカ手話生産のためのディープラーニングに基づく大規模で事前訓練されたモデルが欠けていた。
本稿では,人手話話者を骨格のポーズから生成できる2条件拡散事前学習モデルSignDiffを提案する。
我々のASLP法は,手話骨格姿勢の精度と品質を向上させるために,2つの改良されたモジュールと新たな損失関数を提案する。
論文 参考訳(メタデータ) (2023-08-30T15:14:56Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Word level Bangla Sign Language Dataset for Continuous BSL Recognition [0.0]
我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。
モデルの精度は85.64%と報告されている。
論文 参考訳(メタデータ) (2023-02-22T18:55:54Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Keypoint based Sign Language Translation without Glosses [7.240731862549344]
署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。
身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。
本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
論文 参考訳(メタデータ) (2022-04-22T05:37:56Z) - HS-BAN: A Benchmark Dataset of Social Media Comments for Hate Speech
Detection in Bangla [2.055204980188575]
本稿では,5万以上のラベル付きコメントからなる2進級ヘイトスピーチデータセットであるHS-BANを提案する。
本稿では,ヘイトスピーチ検出のためのベンチマークシステムを開発するために,従来の言語機能とニューラルネットワークに基づく手法について検討する。
我々のベンチマークでは、FastTextの非公式な単語埋め込みの上にBi-LSTMモデルがあり、86.78%のF1スコアを達成した。
論文 参考訳(メタデータ) (2021-12-03T13:35:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。