Fugu-MT 論文翻訳(概要): BdSpell: A YOLO-based Real-time Finger Spelling System for Bangla Sign Language

論文の概要: BdSpell: A YOLO-based Real-time Finger Spelling System for Bangla Sign Language

arxiv url: http://arxiv.org/abs/2309.13676v1
Date: Sun, 24 Sep 2023 15:51:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 18:12:00.536658
Title: BdSpell: A YOLO-based Real-time Finger Spelling System for Bangla Sign Language
Title（参考訳）: BdSpell: Bangla手話のためのYOLOベースのリアルタイムフィンガースペルシステム
Authors: Naimul Haque, Meraj Serker and Tariq Bin Bashar
Abstract要約: YOLOv5アーキテクチャに基づく新しいリアルタイム指スペルシステムを提案する。提案手法は,98%の精度で文字スペルを1.32秒で実現した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: In the domain of Bangla Sign Language (BdSL) interpretation, prior approaches often imposed a burden on users, requiring them to spell words without hidden characters, which were subsequently corrected using Bangla grammar rules due to the missing classes in BdSL36 dataset. However, this method posed a challenge in accurately guessing the incorrect spelling of words. To address this limitation, we propose a novel real-time finger spelling system based on the YOLOv5 architecture. Our system employs specified rules and numerical classes as triggers to efficiently generate hidden and compound characters, eliminating the necessity for additional classes and significantly enhancing user convenience. Notably, our approach achieves character spelling in an impressive 1.32 seconds with a remarkable accuracy rate of 98\%. Furthermore, our YOLOv5 model, trained on 9147 images, demonstrates an exceptional mean Average Precision (mAP) of 96.4\%. These advancements represent a substantial progression in augmenting BdSL interpretation, promising increased inclusivity and accessibility for the linguistic minority. This innovative framework, characterized by compatibility with existing YOLO versions, stands as a transformative milestone in enhancing communication modalities and linguistic equity within the Bangla Sign Language community.
Abstract（参考訳）: バングラ手話(BdSL)の解釈では、先行のアプローチはユーザに対してしばしば重荷を課し、隠れ文字なしで単語を綴り、その後BdSL36データセットの欠落クラスのためにバングラ文法規則を用いて修正された。しかし、この手法は単語の誤綴を正確に推測する上で難題となった。この制限に対処するため、YOLOv5アーキテクチャに基づく新しいリアルタイム指スペルシステムを提案する。本システムでは、特定のルールと数値クラスをトリガーとして使用し、隠蔽文字と複合文字を効率的に生成し、追加クラスの必要性を排除し、ユーザ利便性を大幅に向上させる。特に, 文字の綴り精度は98\%で, 印象的な1.32秒で達成した。さらに、9147の画像に基づいてトレーニングしたYOLOv5モデルでは、平均精度が96.4\%の例外平均mAPが示される。これらの進歩は、BdSLの解釈を増大させ、言語マイノリティの傾向とアクセシビリティを高めることを約束している。この革新的な枠組みは、既存のyoloバージョンとの互換性を特徴とし、バングラ手話コミュニティにおけるコミュニケーションモダリティと言語的公平性を高めるための変革的なマイルストーンである。

関連論文リスト

Sign Spotting Disambiguation using Large Language Models [29.79050316749927]
本稿では,Large Language Models(LLMs)を統合して,符号スポッティング品質を大幅に向上させる,学習自由フレームワークを提案する。提案手法は,グローバル・テンポラル・ハンド形状の特徴を抽出し,その特徴を大規模手話辞書と照合する。この辞書ベースのマッチングは本質的に、モデルの再訓練を必要とせず、より優れた語彙の柔軟性を提供する。
論文参考訳（メタデータ） (2025-07-04T16:38:09Z)
Representing Signs as Signs: One-Shot ISLR to Facilitate Functional Sign Language Technologies [6.403291706982091]
独立した手話認識は、スケーラブルな言語技術にとって不可欠である。言語をまたいで一般化し,語彙を進化させるワンショット学習手法を提案する。我々は、異なる言語から10,235のユニークな記号を含む大きな辞書上で50.8%のワンショットMRRを含む最先端の結果を得る。
論文参考訳（メタデータ） (2025-02-27T15:07:51Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
本稿では,ASL(American Sign Language)ビデオコンテンツから強い表現を学習する自己教師型トランスフォーマーエンコーダSHuBERTを紹介する。 HuBERT音声表現モデルの成功に触発されて、SHuBERTはマルチストリーム視覚手話入力にマスク付き予測を適用する。 SHuBERTは、複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文参考訳（メタデータ） (2024-10-11T09:59:48Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
Improving Gloss-free Sign Language Translation by Reducing Representation Density [38.24463842418624]
Gloss-free sign language translation (SLT) は、コストのかかるGlossアノテーションを必要とせずに、良好なパフォーマンスのSLTシステムを開発することを目的としている。我々は、光沢のないSLTの性能を制限するボトルネックとなる表現密度問題を特定する。比較学習戦略,すなわちSignCLを導入し,より差別的な特徴表現を学習するための光沢のないモデルを提案する。
論文参考訳（メタデータ） (2024-05-23T08:32:58Z)
Sign Language Recognition based on YOLOv5 Algorithm for the Telugu Sign Language [0.0]
本稿では、YOLOv5オブジェクト識別フレームワークを用いて、TSL内のジェスチャーを識別する新しい手法を提案する。 YOLOv5を使ってジェスチャーを認識して分類するディープラーニングモデルが開発された。各種のTSLジェスチャーおよび設定に対するシステムの安定性と一般化性は厳密なテストと検証によって評価された。
論文参考訳（メタデータ） (2024-04-24T18:39:27Z)
Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks for Accurate Bangla Sign Language Recognition [2.624902795082451]
我々は,40語以上の611ビデオからなる単語レベルBandgla Sign Languageデータセット(BdSL40)を提案する。これは単語レベルのBdSL認識に関する最初の研究であり、データセットはBangla Sign Language Dictionary (1997)を用いてインド手話(ISL)から転写された。この研究は、BdSL、West Bengal Sign Language、ISL間の重要な語彙的および意味的類似点と、文献におけるBdSLのワードレベルデータセットの欠如を強調した。
論文参考訳（メタデータ） (2024-01-22T18:52:51Z)
Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。我々は,単語順序の重要性を維持するために強制的無効化を提案する。実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-04-11T13:42:10Z)
Word level Bangla Sign Language Dataset for Continuous BSL Recognition [0.0]
我々は,手話を通してコミュニケーションする個人のためのポーズ情報の時間的ダイナミクスを捉える,注目に基づくBi-GRUモデルを開発した。モデルの精度は85.64%と報告されている。
論文参考訳（メタデータ） (2023-02-22T18:55:54Z)
Keypoint based Sign Language Translation without Glosses [7.240731862549344]
署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
論文参考訳（メタデータ） (2022-04-22T05:37:56Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。 BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文参考訳（メタデータ） (2020-07-23T16:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。