論文の概要: Position and Rotation Invariant Sign Language Recognition from 3D Kinect Data with Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2010.12669v4
- Date: Tue, 18 Feb 2025 16:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:01:31.036881
- Title: Position and Rotation Invariant Sign Language Recognition from 3D Kinect Data with Recurrent Neural Networks
- Title(参考訳): ニューラルネットワークを用いた3次元Kinectデータからの位置・回転不変手話認識
- Authors: Prasun Roy, Saumik Bhattacharya, Partha Pratim Roy, Umapada Pal,
- Abstract要約: 手話は、音声や聴覚障害者の間でのジェスチャーに基づく象徴的コミュニケーション媒体である。
本稿では,インド手話の基本ジェスチャー30点の認識を試みる。
- 参考スコア(独自算出の注目度): 17.985871504196275
- License:
- Abstract: Sign language is a gesture-based symbolic communication medium among speech and hearing impaired people. It also serves as a communication bridge between non-impaired and impaired populations. Unfortunately, in most situations, a non-impaired person is not well conversant in such symbolic languages restricting the natural information flow between these two categories. Therefore, an automated translation mechanism that seamlessly translates sign language into natural language can be highly advantageous. In this paper, we attempt to perform recognition of 30 basic Indian sign gestures. Gestures are represented as temporal sequences of 3D maps (RGB + depth), each consisting of 3D coordinates of 20 body joints captured by the Kinect sensor. A recurrent neural network (RNN) is employed as the classifier. To improve the classifier's performance, we use geometric transformation for the alignment correction of depth frames. In our experiments, the model achieves 84.81% accuracy.
- Abstract(参考訳): 手話は、音声や聴覚障害者の間でのジェスチャーに基づく象徴的コミュニケーション媒体である。
また、非障害者と障害者の連絡橋としても機能している。
残念なことに、ほとんどの状況では、これらの2つのカテゴリ間の自然情報の流れを制限するような象徴的な言語では、非障害者はよく会話できない。
したがって、手話を自然言語にシームレスに翻訳する自動翻訳機構は非常に有利である。
本稿では,インド手話の基本ジェスチャー30点の認識を試みる。
ジェスチャーは3Dマップ(RGB + depth)の時間的シーケンスとして表現され、Kinectセンサーによってキャプチャされた20個の関節からなる3D座標で構成されている。
リカレントニューラルネットワーク(RNN)が分類器として使用される。
分類器の性能を向上させるため,深度フレームのアライメント補正に幾何変換を用いる。
実験では,84.81%の精度が得られた。
関連論文リスト
- Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文 参考訳(メタデータ) (2024-07-02T13:02:51Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning [52.73083137245969]
そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。
本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。
論文 参考訳(メタデータ) (2021-07-31T15:13:39Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z) - Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions and Skeletal Information [7.667316027377616]
単語レベル手話認識(WSLR)は,言語障害のある人と聞き取れる人のコミュニケーション障壁を克服することが期待されているため,注目されている。
動作認識のために設計された手法は最先端の精度を実現した。
本稿では,WSLR問題に特に有用な情報を考慮した新しいWSLR手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:30:06Z) - Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。
人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。
様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文 参考訳(メタデータ) (2021-05-03T17:57:07Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。