論文の概要: Skeleton Based Sign Language Recognition Using Whole-body Keypoints
- arxiv url: http://arxiv.org/abs/2103.08833v1
- Date: Tue, 16 Mar 2021 03:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 21:02:59.569319
- Title: Skeleton Based Sign Language Recognition Using Whole-body Keypoints
- Title(参考訳): 全身キーポイントを用いたスケルトンに基づく手話認識
- Authors: Songyao Jiang, Bin Sun, Lichen Wang, Yue Bai, Kunpeng Li, Yun Fu
- Abstract要約: 手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
- 参考スコア(独自算出の注目度): 71.97020373520922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language is a visual language that is used by deaf or speech impaired
people to communicate with each other. Sign language is always performed by
fast transitions of hand gestures and body postures, requiring a great amount
of knowledge and training to understand it. Sign language recognition becomes a
useful yet challenging task in computer vision. Skeleton-based action
recognition is becoming popular that it can be further ensembled with RGB-D
based method to achieve state-of-the-art performance. However, skeleton-based
recognition can hardly be applied to sign language recognition tasks, majorly
because skeleton data contains no indication of hand gestures or facial
expressions. Inspired by the recent development of whole-body pose estimation
\cite{jin2020whole}, we propose recognizing sign language based on the
whole-body key points and features. The recognition results are further
ensembled with other modalities of RGB and optical flows to improve the
accuracy further. In the challenge about isolated sign language recognition
hosted by ChaLearn using a new large-scale multi-modal Turkish Sign Language
dataset (AUTSL). Our method achieved leading accuracy in both the development
phase and test phase. This manuscript is a fact sheet version. Our workshop
paper version will be released soon. Our code has been made available at
https://github.com/jackyjsy/CVPR21Chal-SLR
- Abstract(参考訳): 手話は視覚言語であり、聴覚障害や発話障害のある人々が互いにコミュニケーションするために使用される。
手話は常に手の動きや姿勢の素早い移行によって行われ、理解するために大量の知識と訓練を必要とする。
手話認識はコンピュータビジョンにおいて有用だが挑戦的なタスクとなる。
スケルトンベースのアクション認識が普及し、rgb-dベースの手法で最先端のパフォーマンスを実現することができる。
しかし、スケルトンに基づく認識は手の動きや表情の表示がないため、手話認識にはほとんど適用できない。
近年の全身的ポーズ推定法の開発に触発されて,全身的キーポイントと特徴に基づく手話認識を提案する。
認識結果は、RGBおよび光流の他のモードとさらにアンサンブルされ、精度がさらに向上する。
ChaLearnがホストする独立した手話認識の課題では、新しい大規模マルチモーダルトルコ手話データセット(AUTSL)が使用されている。
本手法は, 開発段階と試験段階の両方において, 先行精度を達成した。
この原稿は事実書版です。
ワークショップ用ペーパー版は間もなくリリースします。
私たちのコードはhttps://github.com/jackyjsy/CVPR21Chal-SLRで公開されています。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文 参考訳(メタデータ) (2024-07-02T13:02:51Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Novel Approach to Use HU Moments with Image Processing Techniques for
Real Time Sign Language Communication [0.0]
手話通信装置(SLC)は,手話利用者と他国との言語障壁を解決するために設計されている。
システムは選択した手話記号を84%の精度で認識できる。
論文 参考訳(メタデータ) (2020-07-20T03:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。