論文の概要: Sign Language Recognition Based On Facial Expression and Hand Skeleton
- arxiv url: http://arxiv.org/abs/2407.02241v1
- Date: Tue, 2 Jul 2024 13:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:25:45.142641
- Title: Sign Language Recognition Based On Facial Expression and Hand Skeleton
- Title(参考訳): 表情と手話を用いた手話認識
- Authors: Zhiyu Long, Xingyou Liu, Jiaqi Qiao, Zhi Li,
- Abstract要約: 我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
- 参考スコア(独自算出の注目度): 2.5879170041667523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language is a visual language used by the deaf and dumb community to communicate. However, for most recognition methods based on monocular cameras, the recognition accuracy is low and the robustness is poor. Even if the effect is good on some data, it may perform poorly in other data with different interference due to the inability to extract effective features. To solve these problems, we propose a sign language recognition network that integrates skeleton features of hands and facial expression. Among this, we propose a hand skeleton feature extraction based on coordinate transformation to describe the shape of the hand more accurately. Moreover, by incorporating facial expression information, the accuracy and robustness of sign language recognition are finally improved, which was verified on A Dataset for Argentinian Sign Language and SEU's Chinese Sign Language Recognition Database (SEUCSLRD).
- Abstract(参考訳): 手話は、聴覚障害と愚かなコミュニティがコミュニケーションするために使用する視覚言語である。
しかし, 単眼カメラを用いたほとんどの認識手法では, 認識精度は低く, 頑健性は低い。
一部のデータに効果があるとしても、効果的な特徴を抽出できないため、干渉が異なる他のデータでは性能が悪くなる可能性がある。
これらの問題を解決するために,手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
そこで本研究では,手の形状をより正確に記述するために,座標変換に基づく手骨の特徴抽出を提案する。
さらに,表情情報を取り入れることで,手話認識の精度と堅牢性が向上し,Argentinian Sign Language と SEU の Chinese Sign Language Recognition Database (SEUCSLRD) で検証された。
関連論文リスト
- Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Enhancing Brazilian Sign Language Recognition through Skeleton Image Representation [2.6311088262657907]
本研究は、身体、手、顔のランドマークを時間を通して抽出し、2次元画像として符号化する、分離手話認識(ISLR)アプローチを提案する。
ブラジル手話(LIBRAS)における2つの広く認識されているデータセットの性能指標から,本手法が最先端の指標を上回ったことを示す。
より正確であることに加えて、より単純なネットワークアーキテクチャに依存し、入力としてのみRGBデータに依存するため、我々の手法はより時間効率が高く、訓練が容易である。
論文 参考訳(メタデータ) (2024-04-29T23:21:17Z) - On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。
我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。
我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文 参考訳(メタデータ) (2023-03-19T22:15:05Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - FineHand: Learning Hand Shapes for American Sign Language Recognition [16.862375555609667]
本稿では,手形状の埋め込みを効果的に学習するためのアプローチを提案する。
手形認識には手動ラベル付き手形と高信頼度予測を組み合わせて深部畳み込みニューラルネットワーク(CNN)を訓練する。
より高品質な手形状モデルが最終映像ジェスチャー分類の精度を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2020-03-04T23:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。