論文の概要: Evaluating the Immediate Applicability of Pose Estimation for Sign
Language Recognition
- arxiv url: http://arxiv.org/abs/2104.10166v1
- Date: Tue, 20 Apr 2021 14:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 03:11:14.415723
- Title: Evaluating the Immediate Applicability of Pose Estimation for Sign
Language Recognition
- Title(参考訳): 手話認識におけるポーズ推定の即時適用性の評価
- Authors: Amit Moryossef, Ioannis Tsochantaridis, Joe Dinn, Necati Cihan
Camg\"oz, Richard Bowden, Tao Jiang, Annette Rios, Mathias M\"uller, Sarah
Ebling
- Abstract要約: 説明可能で,人に依存しない,プライバシを保護し,低次元表現であるため,スケルトンポーズに基づく表現を評価する。
我々は2つの最先端ポーズ推定システムを用いて2つの独立した研究を行う。
認知モデルの障害事例を評価することにより,ポーズ推定システムの言語認識への適用性を分析した。
- 参考スコア(独自算出の注目度): 33.26064598621083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Signed languages are visual languages produced by the movement of the hands,
face, and body. In this paper, we evaluate representations based on skeleton
poses, as these are explainable, person-independent, privacy-preserving,
low-dimensional representations. Basically, skeletal representations generalize
over an individual's appearance and background, allowing us to focus on the
recognition of motion. But how much information is lost by the skeletal
representation? We perform two independent studies using two state-of-the-art
pose estimation systems. We analyze the applicability of the pose estimation
systems to sign language recognition by evaluating the failure cases of the
recognition models. Importantly, this allows us to characterize the current
limitations of skeletal pose estimation approaches in sign language
recognition.
- Abstract(参考訳): 符号付き言語は、手、顔、体の動きによって生成される視覚言語である。
本稿では,説明可能であり,人に依存しない,プライバシーを保護し,低次元表現であるスケルトンポーズに基づく表現を評価する。
基本的に、骨格表現は個人の外見と背景を一般化し、動きの認識に焦点を合わせることができる。
しかし、骨格表現によってどれだけ情報が失われるのか?
我々は2つの最先端ポーズ推定システムを用いて2つの独立した研究を行う。
ポーズ推定システムの手話認識への適用性について,認識モデルの故障事例を評価することにより検討した。
重要なことに、手話認識における骨格ポーズ推定アプローチの現在の制限を特徴付けることができる。
関連論文リスト
- Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文 参考訳(メタデータ) (2024-07-02T13:02:51Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Sign Languague Recognition without frame-sequencing constraints: A proof
of concept on the Argentinian Sign Language [42.27617228521691]
本稿では,様々な特徴量に基づいてサブ分類器を結合した手話分類のための一般化確率モデルを提案する。
提案したモデルは、アルゼンチン手話データセットで97%の精度を達成した。
論文 参考訳(メタデータ) (2023-10-26T14:47:11Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z) - Pose-based Body Language Recognition for Emotion and Psychiatric Symptom
Interpretation [75.3147962600095]
通常のRGBビデオから始まるボディーランゲージに基づく感情認識のための自動フレームワークを提案する。
心理学者との連携により,精神症状予測の枠組みを拡張した。
提案されたフレームワークの特定のアプリケーションドメインは限られた量のデータしか供給しないため、フレームワークは小さなトレーニングセットで動作するように設計されている。
論文 参考訳(メタデータ) (2020-10-30T18:45:16Z) - Using Human Psychophysics to Evaluate Generalization in Scene Text
Recognition Models [7.294729862905325]
我々は2つの重要なシーンテキスト認識モデルを,その領域を計測することで特徴付ける。
ドメインは、読み手が様々な単語の長さ、フォント、閉塞量に一般化する能力を指定する。
論文 参考訳(メタデータ) (2020-06-30T19:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。