論文の概要: Multi-View Bangla Sign Language(MV-BSL) Dataset and Continuous BSL
Recognition
- arxiv url: http://arxiv.org/abs/2302.11559v1
- Date: Wed, 22 Feb 2023 18:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 14:09:24.868515
- Title: Multi-View Bangla Sign Language(MV-BSL) Dataset and Continuous BSL
Recognition
- Title(参考訳): マルチビューバングラ手話(MV-BSL)データセットと連続BSL認識
- Authors: Md Shamimul Islam, A.J.M. Akhtarujjaman Joha, Md Nur Hossain, Md
Mahedi Hasan
- Abstract要約: 我々は、注目に基づく双方向ゲート型リカレントユニット(Bi-GRU)アーキテクチャを備えたリカレントニューラルネットワーク(RNN)を構築し、手話を介して通信する個人のポーズ情報の時間的ダイナミクスをモデル化した。
人間のポーズ情報は、人の身体の外観や環境情報を無視し、実際の動きを捉えることで、最先端の精度でモデルをよりシンプルかつ高速に、手話のパターンを分析するのに有効であることが証明されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Being able to express our thoughts, feelings, and ideas to one another is
essential for human survival and development. A considerable portion of the
population encounters communication obstacles in environments where hearing is
the primary means of communication, leading to unfavorable effects on daily
activities. An autonomous sign language recognition system that works
effectively can significantly reduce this barrier. To address the issue, we
proposed a large scale dataset namely Multi-View Bangla Sign Language dataset
(MV- BSL) which consist of 115 glosses and 350 isolated words in 15 different
categories. Furthermore, We have built a recurrent neural network (RNN) with
attention based bidirectional gated recurrent units (Bi-GRU) architecture that
models the temporal dynamics of the pose information of an individual
communicating through sign language. Human pose information, which has proven
effective in analyzing sign pattern as it ignores people's body appearance and
environmental information while capturing the true movement information makes
the proposed model simpler and faster with state-of-the-art accuracy.
- Abstract(参考訳): 私たちの思考、感情、考えを互いに表現できることは、人間の生存と発展に不可欠です。
住民のかなりの部分は、聴覚がコミュニケーションの主要な手段である環境でのコミュニケーション障害に遭遇し、日常生活に好ましくない影響を及ぼす。
効果的に機能する自律手話認識システムは、この障壁を著しく低減することができる。
そこで本研究では,15のカテゴリで115個の用語と350個の単語からなる多視点バングラ手話データセット(mv-bsl)を提案する。
さらに,手話を介してコミュニケーションする個人のポーズ情報の時間的ダイナミクスをモデル化した,双方向ゲート型リカレントユニット(bi-gru)アーキテクチャを用いたリカレントニューラルネットワーク(rnn)を構築した。
実際の動作情報を捉えながら人の身体の外観や環境情報を無視して、手話パターンの分析に効果的であることが証明された人間のポーズ情報は、最先端の精度で提案モデルをよりシンプルかつ高速に実現している。
関連論文リスト
- Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文 参考訳(メタデータ) (2024-07-02T13:02:51Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。