論文の概要: Word-level Sign Language Recognition with Multi-stream Neural Networks
Focusing on Local Regions
- arxiv url: http://arxiv.org/abs/2106.15989v1
- Date: Wed, 30 Jun 2021 11:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:22:05.565726
- Title: Word-level Sign Language Recognition with Multi-stream Neural Networks
Focusing on Local Regions
- Title(参考訳): 局所領域に着目したマルチストリームニューラルネットワークによる単語レベル手話認識
- Authors: Mizuki Maruyama, Shuvozit Ghose, Katsufumi Inoue, Partha Pratim Roy,
Masakazu Iwamura, Michifumi Yoshioka
- Abstract要約: 本稿では,ローカル領域の画像を含むストリームと,骨格情報を持つストリームを導入した,新しいマルチストリームWSLRフレームワークを提案する。
WLASLデータセットの実験結果から,提案手法がTop-1精度で約15%向上したことが明らかとなった。
- 参考スコア(独自算出の注目度): 17.766396543732753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Word-level Sign Language Recognition (WSLR) research has
gained popularity in the computer vision community, and thus various approaches
have been proposed. Among these approaches, the method using I3D network
achieves the highest recognition accuracy on large public datasets for WSLR.
However, the method with I3D only utilizes appearance information of the upper
body of the signers to recognize sign language words. On the other hand, in
WSLR, the information of local regions, such as the hand shape and facial
expression, and the positional relationship among the body and both hands are
important. Thus in this work, we utilized local region images of both hands and
face, along with skeletal information to capture local information and the
positions of both hands relative to the body, respectively. In other words, we
propose a novel multi-stream WSLR framework, in which a stream with local
region images and a stream with skeletal information are introduced by
extending I3D network to improve the recognition accuracy of WSLR. From the
experimental results on WLASL dataset, it is evident that the proposed method
has achieved about 15% improvement in the Top-1 accuracy than the existing
conventional methods.
- Abstract(参考訳): 近年,コンピュータビジョンコミュニティにおいて,単語レベル手話認識(WSLR)の研究が盛んになり,様々なアプローチが提案されている。
I3Dネットワークを用いた手法は,WSLRの大規模公開データセットに対して高い認識精度を実現する。
しかし、i3dを用いた方法は、シグナーの上半身の出現情報のみを利用して手話単語を認識する。
一方,wslrでは,手の形状や表情などの局所的な情報や,身体と両手の位置関係が重要である。
そこで本研究では,両手と顔の局所的画像と骨格情報を用いて,身体に対する局所的情報と両手の位置をそれぞれ捉えた。
言い換えれば,WSLRの認識精度を向上させるために,局所領域画像と骨格情報を含むストリームをI3Dネットワークを拡張して導入する,新しいマルチストリームWSLRフレームワークを提案する。
WLASLデータセットの実験結果から,提案手法は従来の手法に比べてTop-1精度が約15%向上していることが明らかとなった。
関連論文リスト
- EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Enhancing Sign Language Detection through Mediapipe and Convolutional Neural Networks (CNN) [3.192629447369627]
この研究は、ASLデータセットの効率的かつ正確な解釈のためにMediaPipeとCNNを組み合わせる。
ASLデータセットのモデルによって達成される精度は99.12%である。
このシステムは、コミュニケーション、教育、アクセシビリティードメインに応用される。
論文 参考訳(メタデータ) (2024-06-06T04:05:12Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Global-local Enhancement Network for NMFs-aware Sign Language
Recognition [135.30357113518127]
グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。
日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
論文 参考訳(メタデータ) (2020-08-24T13:28:55Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。