Fugu-MT 論文翻訳(概要): Position and Rotation Invariant Sign Language Recognition from 3D Point Cloud Data with Recurrent Neural Networks

論文の概要: Position and Rotation Invariant Sign Language Recognition from 3D Point Cloud Data with Recurrent Neural Networks

arxiv url: http://arxiv.org/abs/2010.12669v1
Date: Fri, 23 Oct 2020 21:07:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 23:54:54.619425
Title: Position and Rotation Invariant Sign Language Recognition from 3D Point Cloud Data with Recurrent Neural Networks
Title（参考訳）: リカレントニューラルネットワークを用いた3次元点雲データによる手話の位置・回転変化認識
Authors: Prasun Roy and Saumik Bhattacharya and Partha Pratim Roy and Umapada Pal
Abstract要約: 手話は、音声・聴覚障害者間のジェスチャーに基づく象徴的コミュニケーション媒体である。そこで本研究では,インド手話の基本ジェスチャーを30で認識する手法を提案する。
参考スコア（独自算出の注目度）: 27.829879308004955
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sign language is a gesture based symbolic communication medium among speech and hearing impaired people. It also serves as a communication bridge between non-impaired population and impaired population. Unfortunately, in most situations a non-impaired person is not well conversant in such symbolic languages which restricts natural information flow between these two categories of population. Therefore, an automated translation mechanism can be greatly useful that can seamlessly translate sign language into natural language. In this paper, we attempt to perform recognition on 30 basic Indian sign gestures. Gestures are represented as temporal sequences of 3D depth maps each consisting of 3D coordinates of 20 body joints. A recurrent neural network (RNN) is employed as classifier. To improve performance of the classifier, we use geometric transformation for alignment correction of depth frames. In our experiments the model achieves 84.81% accuracy.
Abstract（参考訳）: 手話は、音声・聴覚障害者間のジェスチャーに基づく象徴的コミュニケーション媒体である。また、障害のない人口と障害のある人口の間のコミュニケーションブリッジとしても機能する。残念なことに、この2つのカテゴリー間の自然情報の流れを制限する象徴的な言語では、ほとんどの状況では、非障害者はよく会話できない。したがって、手話から自然言語への翻訳をシームレスに行える自動翻訳機構は非常に有用である。本稿では,30個の基本インド手指ジェスチャの認識を試みる。ジェスチャーは、20体の関節の3d座標からなる3d深度マップの時間系列として表現される。リカレントニューラルネットワーク(RNN)が分類器として使用される。分類器の性能を向上させるために,深度フレームのアライメント補正に幾何変換を用いる。実験では84.81%の精度が得られた。

関連論文リスト

Indian Sign Language Detection for Real-Time Translation using Machine Learning [0.1747623282473278]
畳み込みニューラルネットワーク(CNN)を用いた頑健でリアルタイムなISL検出・翻訳システムを提案する。我々のモデルは総合的なISLデータセットに基づいて訓練され、99.95%の分類精度を達成し、例外的な性能を示す。リアルタイム実装のために、このフレームワークはMediaPipeを統合して手の動きを正確に追跡し、動的ジェスチャーをシームレスに翻訳する。
論文参考訳（メタデータ） (2025-07-27T21:15:46Z)
Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文参考訳（メタデータ） (2024-07-02T13:02:51Z)
Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文参考訳（メタデータ） (2023-12-05T12:04:34Z)
KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文参考訳（メタデータ） (2022-06-21T03:11:37Z)
Multi-View Spatial-Temporal Network for Continuous Sign Language Recognition [0.76146285961466]
本稿では,多視点空間時間連続手話認識ネットワークを提案する。 2つの公開手話データセット SLR-100 と PHOENIX-Weather 2014T (RWTH) でテストされている。
論文参考訳（メタデータ） (2022-04-19T08:43:03Z)
Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文参考訳（メタデータ） (2021-11-16T08:01:16Z)
Phonology Recognition in American Sign Language [1.396059473766045]
本稿では,アメリカ手話利用者の音韻特性に基づいた手話処理手法を提案する。音韻データと手話話者からなるデータセットを活用することで,メッシュ再構成に基づく事前訓練された深層モデルを用いて,手話キーポイントの3次元座標を抽出する。我々は、座標の各時間列に音韻クラスを割り当てるために、標準的な統計的および深層機械学習モデルを訓練する。
論文参考訳（メタデータ） (2021-10-01T14:38:47Z)
Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning [52.73083137245969]
そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。
論文参考訳（メタデータ） (2021-07-31T15:13:39Z)
Passing a Non-verbal Turing Test: Evaluating Gesture Animations Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文参考訳（メタデータ） (2021-07-01T19:38:43Z)
Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions and Skeletal Information [7.667316027377616]
単語レベル手話認識(WSLR)は,言語障害のある人と聞き取れる人のコミュニケーション障壁を克服することが期待されているため,注目されている。動作認識のために設計された手法は最先端の精度を実現した。本稿では,WSLR問題に特に有用な情報を考慮した新しいWSLR手法を提案する。
論文参考訳（メタデータ） (2021-06-30T11:30:06Z)
Preliminary study on using vector quantization latent spaces for TTS/VC systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文参考訳（メタデータ） (2021-06-25T07:51:35Z)
Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文参考訳（メタデータ） (2021-05-03T17:57:07Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文参考訳（メタデータ） (2021-02-13T01:05:39Z)
Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文参考訳（メタデータ） (2021-01-17T10:14:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。