論文の概要: Position and Rotation Invariant Sign Language Recognition from 3D Point
Cloud Data with Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2010.12669v1
- Date: Fri, 23 Oct 2020 21:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:54:54.619425
- Title: Position and Rotation Invariant Sign Language Recognition from 3D Point
Cloud Data with Recurrent Neural Networks
- Title(参考訳): リカレントニューラルネットワークを用いた3次元点雲データによる手話の位置・回転変化認識
- Authors: Prasun Roy and Saumik Bhattacharya and Partha Pratim Roy and Umapada
Pal
- Abstract要約: 手話は、音声・聴覚障害者間のジェスチャーに基づく象徴的コミュニケーション媒体である。
そこで本研究では,インド手話の基本ジェスチャーを30で認識する手法を提案する。
- 参考スコア(独自算出の注目度): 27.829879308004955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language is a gesture based symbolic communication medium among speech
and hearing impaired people. It also serves as a communication bridge between
non-impaired population and impaired population. Unfortunately, in most
situations a non-impaired person is not well conversant in such symbolic
languages which restricts natural information flow between these two categories
of population. Therefore, an automated translation mechanism can be greatly
useful that can seamlessly translate sign language into natural language. In
this paper, we attempt to perform recognition on 30 basic Indian sign gestures.
Gestures are represented as temporal sequences of 3D depth maps each consisting
of 3D coordinates of 20 body joints. A recurrent neural network (RNN) is
employed as classifier. To improve performance of the classifier, we use
geometric transformation for alignment correction of depth frames. In our
experiments the model achieves 84.81% accuracy.
- Abstract(参考訳): 手話は、音声・聴覚障害者間のジェスチャーに基づく象徴的コミュニケーション媒体である。
また、障害のない人口と障害のある人口の間のコミュニケーションブリッジとしても機能する。
残念なことに、この2つのカテゴリー間の自然情報の流れを制限する象徴的な言語では、ほとんどの状況では、非障害者はよく会話できない。
したがって、手話から自然言語への翻訳をシームレスに行える自動翻訳機構は非常に有用である。
本稿では,30個の基本インド手指ジェスチャの認識を試みる。
ジェスチャーは、20体の関節の3d座標からなる3d深度マップの時間系列として表現される。
リカレントニューラルネットワーク(RNN)が分類器として使用される。
分類器の性能を向上させるために,深度フレームのアライメント補正に幾何変換を用いる。
実験では84.81%の精度が得られた。
関連論文リスト
- Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文 参考訳(メタデータ) (2024-07-02T13:02:51Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning [52.73083137245969]
そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。
本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。
論文 参考訳(メタデータ) (2021-07-31T15:13:39Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z) - Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions and Skeletal Information [7.667316027377616]
単語レベル手話認識(WSLR)は,言語障害のある人と聞き取れる人のコミュニケーション障壁を克服することが期待されているため,注目されている。
動作認識のために設計された手法は最先端の精度を実現した。
本稿では,WSLR問題に特に有用な情報を考慮した新しいWSLR手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:30:06Z) - Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。
人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。
様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文 参考訳(メタデータ) (2021-05-03T17:57:07Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。