論文の概要: Position and Rotation Invariant Sign Language Recognition from 3D Point
Cloud Data with Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2010.12669v1
- Date: Fri, 23 Oct 2020 21:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:54:54.619425
- Title: Position and Rotation Invariant Sign Language Recognition from 3D Point
Cloud Data with Recurrent Neural Networks
- Title(参考訳): リカレントニューラルネットワークを用いた3次元点雲データによる手話の位置・回転変化認識
- Authors: Prasun Roy and Saumik Bhattacharya and Partha Pratim Roy and Umapada
Pal
- Abstract要約: 手話は、音声・聴覚障害者間のジェスチャーに基づく象徴的コミュニケーション媒体である。
そこで本研究では,インド手話の基本ジェスチャーを30で認識する手法を提案する。
- 参考スコア(独自算出の注目度): 27.829879308004955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language is a gesture based symbolic communication medium among speech
and hearing impaired people. It also serves as a communication bridge between
non-impaired population and impaired population. Unfortunately, in most
situations a non-impaired person is not well conversant in such symbolic
languages which restricts natural information flow between these two categories
of population. Therefore, an automated translation mechanism can be greatly
useful that can seamlessly translate sign language into natural language. In
this paper, we attempt to perform recognition on 30 basic Indian sign gestures.
Gestures are represented as temporal sequences of 3D depth maps each consisting
of 3D coordinates of 20 body joints. A recurrent neural network (RNN) is
employed as classifier. To improve performance of the classifier, we use
geometric transformation for alignment correction of depth frames. In our
experiments the model achieves 84.81% accuracy.
- Abstract(参考訳): 手話は、音声・聴覚障害者間のジェスチャーに基づく象徴的コミュニケーション媒体である。
また、障害のない人口と障害のある人口の間のコミュニケーションブリッジとしても機能する。
残念なことに、この2つのカテゴリー間の自然情報の流れを制限する象徴的な言語では、ほとんどの状況では、非障害者はよく会話できない。
したがって、手話から自然言語への翻訳をシームレスに行える自動翻訳機構は非常に有用である。
本稿では,30個の基本インド手指ジェスチャの認識を試みる。
ジェスチャーは、20体の関節の3d座標からなる3d深度マップの時間系列として表現される。
リカレントニューラルネットワーク(RNN)が分類器として使用される。
分類器の性能を向上させるために,深度フレームのアライメント補正に幾何変換を用いる。
実験では84.81%の精度が得られた。
関連論文リスト
- Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - Multi-View Spatial-Temporal Network for Continuous Sign Language
Recognition [0.76146285961466]
本稿では,多視点空間時間連続手話認識ネットワークを提案する。
2つの公開手話データセット SLR-100 と PHOENIX-Weather 2014T (RWTH) でテストされている。
論文 参考訳(メタデータ) (2022-04-19T08:43:03Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Phonology Recognition in American Sign Language [1.396059473766045]
本稿では,アメリカ手話利用者の音韻特性に基づいた手話処理手法を提案する。
音韻データと手話話者からなるデータセットを活用することで,メッシュ再構成に基づく事前訓練された深層モデルを用いて,手話キーポイントの3次元座標を抽出する。
我々は、座標の各時間列に音韻クラスを割り当てるために、標準的な統計的および深層機械学習モデルを訓練する。
論文 参考訳(メタデータ) (2021-10-01T14:38:47Z) - Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning [52.73083137245969]
そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。
本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。
論文 参考訳(メタデータ) (2021-07-31T15:13:39Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z) - Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions and Skeletal Information [7.667316027377616]
単語レベル手話認識(WSLR)は,言語障害のある人と聞き取れる人のコミュニケーション障壁を克服することが期待されているため,注目されている。
動作認識のために設計された手法は最先端の精度を実現した。
本稿では,WSLR問題に特に有用な情報を考慮した新しいWSLR手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:30:06Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。