論文の概要: Multi-View Bangla Sign Language(MV-BSL) Dataset and Continuous BSL
Recognition
- arxiv url: http://arxiv.org/abs/2302.11559v1
- Date: Wed, 22 Feb 2023 18:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 14:09:24.868515
- Title: Multi-View Bangla Sign Language(MV-BSL) Dataset and Continuous BSL
Recognition
- Title(参考訳): マルチビューバングラ手話(MV-BSL)データセットと連続BSL認識
- Authors: Md Shamimul Islam, A.J.M. Akhtarujjaman Joha, Md Nur Hossain, Md
Mahedi Hasan
- Abstract要約: 我々は、注目に基づく双方向ゲート型リカレントユニット(Bi-GRU)アーキテクチャを備えたリカレントニューラルネットワーク(RNN)を構築し、手話を介して通信する個人のポーズ情報の時間的ダイナミクスをモデル化した。
人間のポーズ情報は、人の身体の外観や環境情報を無視し、実際の動きを捉えることで、最先端の精度でモデルをよりシンプルかつ高速に、手話のパターンを分析するのに有効であることが証明されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Being able to express our thoughts, feelings, and ideas to one another is
essential for human survival and development. A considerable portion of the
population encounters communication obstacles in environments where hearing is
the primary means of communication, leading to unfavorable effects on daily
activities. An autonomous sign language recognition system that works
effectively can significantly reduce this barrier. To address the issue, we
proposed a large scale dataset namely Multi-View Bangla Sign Language dataset
(MV- BSL) which consist of 115 glosses and 350 isolated words in 15 different
categories. Furthermore, We have built a recurrent neural network (RNN) with
attention based bidirectional gated recurrent units (Bi-GRU) architecture that
models the temporal dynamics of the pose information of an individual
communicating through sign language. Human pose information, which has proven
effective in analyzing sign pattern as it ignores people's body appearance and
environmental information while capturing the true movement information makes
the proposed model simpler and faster with state-of-the-art accuracy.
- Abstract(参考訳): 私たちの思考、感情、考えを互いに表現できることは、人間の生存と発展に不可欠です。
住民のかなりの部分は、聴覚がコミュニケーションの主要な手段である環境でのコミュニケーション障害に遭遇し、日常生活に好ましくない影響を及ぼす。
効果的に機能する自律手話認識システムは、この障壁を著しく低減することができる。
そこで本研究では,15のカテゴリで115個の用語と350個の単語からなる多視点バングラ手話データセット(mv-bsl)を提案する。
さらに,手話を介してコミュニケーションする個人のポーズ情報の時間的ダイナミクスをモデル化した,双方向ゲート型リカレントユニット(bi-gru)アーキテクチャを用いたリカレントニューラルネットワーク(rnn)を構築した。
実際の動作情報を捉えながら人の身体の外観や環境情報を無視して、手話パターンの分析に効果的であることが証明された人間のポーズ情報は、最先端の精度で提案モデルをよりシンプルかつ高速に実現している。
関連論文リスト
- Neural Sign Actors: A diffusion model for 3D sign language production
from text [54.048218171283885]
手話は難聴者や難聴者のコミュニティにとって主要なコミュニケーション手段である。
深層学習はSL認識と翻訳の多くの手法を支援しており、顕著な成果を上げている。
この研究は、現実的なニューラルサインアバターに向けて重要かつ必要なステップを示し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - A Comparative Analysis of Techniques and Algorithms for Recognising Sign
Language [0.9311364633437358]
手話はしばしば、難聴者によるコミュニケーションの第一形態として使われる。
聴覚障害者にソーシャル・プラットフォームを提供するヒューマン・コンピュータ・インタフェース・システムを構築する必要がある。
ほとんどの商用手話翻訳システムはセンサーベースで高価で使いづらい。
論文 参考訳(メタデータ) (2023-05-05T10:52:18Z) - Image-based Indian Sign Language Recognition: A Practical Review using
Deep Neural Networks [0.0]
このモデルは、手話をテキストに変換するリアルタイムな単語レベル手話認識システムを開発することを目的としている。
この分析のために、ユーザはWebカメラを使って手の動きの写真を撮らなければならない。
我々のモデルは畳み込みニューラルネットワーク(CNN)を用いて訓練され、画像の認識に使用される。
論文 参考訳(メタデータ) (2023-04-28T09:27:04Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。