Fugu-MT 論文翻訳(概要): Multi-View Bangla Sign Language(MV-BSL) Dataset and Continuous BSL Recognition

論文の概要: Multi-View Bangla Sign Language(MV-BSL) Dataset and Continuous BSL Recognition

arxiv url: http://arxiv.org/abs/2302.11559v1
Date: Wed, 22 Feb 2023 18:55:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-23 14:09:24.868515
Title: Multi-View Bangla Sign Language(MV-BSL) Dataset and Continuous BSL Recognition
Title（参考訳）: マルチビューバングラ手話(MV-BSL)データセットと連続BSL認識
Authors: Md Shamimul Islam, A.J.M. Akhtarujjaman Joha, Md Nur Hossain, Md Mahedi Hasan
Abstract要約: 我々は、注目に基づく双方向ゲート型リカレントユニット(Bi-GRU)アーキテクチャを備えたリカレントニューラルネットワーク(RNN)を構築し、手話を介して通信する個人のポーズ情報の時間的ダイナミクスをモデル化した。人間のポーズ情報は、人の身体の外観や環境情報を無視し、実際の動きを捉えることで、最先端の精度でモデルをよりシンプルかつ高速に、手話のパターンを分析するのに有効であることが証明されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Being able to express our thoughts, feelings, and ideas to one another is essential for human survival and development. A considerable portion of the population encounters communication obstacles in environments where hearing is the primary means of communication, leading to unfavorable effects on daily activities. An autonomous sign language recognition system that works effectively can significantly reduce this barrier. To address the issue, we proposed a large scale dataset namely Multi-View Bangla Sign Language dataset (MV- BSL) which consist of 115 glosses and 350 isolated words in 15 different categories. Furthermore, We have built a recurrent neural network (RNN) with attention based bidirectional gated recurrent units (Bi-GRU) architecture that models the temporal dynamics of the pose information of an individual communicating through sign language. Human pose information, which has proven effective in analyzing sign pattern as it ignores people's body appearance and environmental information while capturing the true movement information makes the proposed model simpler and faster with state-of-the-art accuracy.
Abstract（参考訳）: 私たちの思考、感情、考えを互いに表現できることは、人間の生存と発展に不可欠です。住民のかなりの部分は、聴覚がコミュニケーションの主要な手段である環境でのコミュニケーション障害に遭遇し、日常生活に好ましくない影響を及ぼす。効果的に機能する自律手話認識システムは、この障壁を著しく低減することができる。そこで本研究では,15のカテゴリで115個の用語と350個の単語からなる多視点バングラ手話データセット(mv-bsl)を提案する。さらに,手話を介してコミュニケーションする個人のポーズ情報の時間的ダイナミクスをモデル化した,双方向ゲート型リカレントユニット(bi-gru)アーキテクチャを用いたリカレントニューラルネットワーク(rnn)を構築した。実際の動作情報を捉えながら人の身体の外観や環境情報を無視して、手話パターンの分析に効果的であることが証明された人間のポーズ情報は、最先端の精度で提案モデルをよりシンプルかつ高速に実現している。

関連論文リスト

Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues [19.675409379345172]
テキストとともに非言語的手がかりを理解・生成するためのマルチモーダル言語モデルであるMARSを紹介する。私たちの重要な革新はVENUSです。VENUSは、タイムアラインなテキスト、表情、ボディランゲージを備えた注釈付きビデオからなる大規模なデータセットです。
論文参考訳（メタデータ） (2025-06-01T11:07:25Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。 SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。 SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2024-07-17T14:16:35Z)
Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文参考訳（メタデータ） (2024-07-11T02:14:06Z)
Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文参考訳（メタデータ） (2024-07-02T13:02:51Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文参考訳（メタデータ） (2024-04-29T23:21:17Z)
SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-08T17:16:38Z)
Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文参考訳（メタデータ） (2023-02-15T14:36:18Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。