論文の概要: Skeleton Based Sign Language Recognition Using Whole-body Keypoints
- arxiv url: http://arxiv.org/abs/2103.08833v1
- Date: Tue, 16 Mar 2021 03:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 21:02:59.569319
- Title: Skeleton Based Sign Language Recognition Using Whole-body Keypoints
- Title(参考訳): 全身キーポイントを用いたスケルトンに基づく手話認識
- Authors: Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu
- Abstract要約: 手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
- 参考スコア(独自算出の注目度): 71.97020373520922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language is a visual language that is used by deaf or speech impaired
people to communicate with each other. Sign language is always performed by
fast transitions of hand gestures and body postures, requiring a great amount
of knowledge and training to understand it. Sign language recognition becomes a
useful yet challenging task in computer vision. Skeleton-based action
recognition is becoming popular that it can be further ensembled with RGB-D
based method to achieve state-of-the-art performance. However, skeleton-based
recognition can hardly be applied to sign language recognition tasks, majorly
because skeleton data contains no indication of hand gestures or facial
expressions. Inspired by the recent development of whole-body pose estimation
\cite{jin2020whole}, we propose recognizing sign language based on the
whole-body key points and features. The recognition results are further
ensembled with other modalities of RGB and optical flows to improve the
accuracy further. In the challenge about isolated sign language recognition
hosted by ChaLearn using a new large-scale multi-modal Turkish Sign Language
dataset (AUTSL). Our method achieved leading accuracy in both the development
phase and test phase. This manuscript is a fact sheet version. Our workshop
paper version will be released soon. Our code has been made available at
https://github.com/jackyjsy/CVPR21Chal-SLR
- Abstract(参考訳): 手話は視覚言語であり、聴覚障害や発話障害のある人々が互いにコミュニケーションするために使用される。
手話は常に手の動きや姿勢の素早い移行によって行われ、理解するために大量の知識と訓練を必要とする。
手話認識はコンピュータビジョンにおいて有用だが挑戦的なタスクとなる。
スケルトンベースのアクション認識が普及し、rgb-dベースの手法で最先端のパフォーマンスを実現することができる。
しかし、スケルトンに基づく認識は手の動きや表情の表示がないため、手話認識にはほとんど適用できない。
近年の全身的ポーズ推定法の開発に触発されて,全身的キーポイントと特徴に基づく手話認識を提案する。
認識結果は、RGBおよび光流の他のモードとさらにアンサンブルされ、精度がさらに向上する。
ChaLearnがホストする独立した手話認識の課題では、新しい大規模マルチモーダルトルコ手話データセット(AUTSL)が使用されている。
本手法は, 開発段階と試験段階の両方において, 先行精度を達成した。
この原稿は事実書版です。
ワークショップ用ペーパー版は間もなくリリースします。
私たちのコードはhttps://github.com/jackyjsy/CVPR21Chal-SLRで公開されています。
関連論文リスト
- Neural Sign Actors: A diffusion model for 3D sign language production
from text [54.048218171283885]
手話は難聴者や難聴者のコミュニティにとって主要なコミュニケーション手段である。
深層学習はSL認識と翻訳の多くの手法を支援しており、顕著な成果を上げている。
この研究は、現実的なニューラルサインアバターに向けて重要かつ必要なステップを示し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Learnt Contrastive Concept Embeddings for Sign Recognition [33.72708697077754]
我々は手話と話し言葉のギャップを埋める手話埋め込みを明示的に作成することに注力する。
我々は手話ビデオの言語ラベルに基づく埋め込みの語彙を訓練する。
我々は,NLP法から単語埋め込みを活用可能な概念的類似性損失を開発し,音声言語対応に優れた手話を含む手話埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-18T12:47:18Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Image-based Indian Sign Language Recognition: A Practical Review using
Deep Neural Networks [0.0]
このモデルは、手話をテキストに変換するリアルタイムな単語レベル手話認識システムを開発することを目的としている。
この分析のために、ユーザはWebカメラを使って手の動きの写真を撮らなければならない。
我々のモデルは畳み込みニューラルネットワーク(CNN)を用いて訓練され、画像の認識に使用される。
論文 参考訳(メタデータ) (2023-04-28T09:27:04Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Novel Approach to Use HU Moments with Image Processing Techniques for
Real Time Sign Language Communication [0.0]
手話通信装置(SLC)は,手話利用者と他国との言語障壁を解決するために設計されている。
システムは選択した手話記号を84%の精度で認識できる。
論文 参考訳(メタデータ) (2020-07-20T03:10:18Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。