論文の概要: Phonology Recognition in American Sign Language
- arxiv url: http://arxiv.org/abs/2110.00453v1
- Date: Fri, 1 Oct 2021 14:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:47:45.202227
- Title: Phonology Recognition in American Sign Language
- Title(参考訳): アメリカ手話における音韻認識
- Authors: Federico Tavella, Aphrodite Galata, Angelo Cangelosi
- Abstract要約: 本稿では,アメリカ手話利用者の音韻特性に基づいた手話処理手法を提案する。
音韻データと手話話者からなるデータセットを活用することで,メッシュ再構成に基づく事前訓練された深層モデルを用いて,手話キーポイントの3次元座標を抽出する。
我々は、座標の各時間列に音韻クラスを割り当てるために、標準的な統計的および深層機械学習モデルを訓練する。
- 参考スコア(独自算出の注目度): 1.396059473766045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by recent developments in natural language processing, we propose a
novel approach to sign language processing based on phonological properties
validated by American Sign Language users. By taking advantage of datasets
composed of phonological data and people speaking sign language, we use a
pretrained deep model based on mesh reconstruction to extract the 3D
coordinates of the signers keypoints. Then, we train standard statistical and
deep machine learning models in order to assign phonological classes to each
temporal sequence of coordinates.
Our paper introduces the idea of exploiting the phonological properties
manually assigned by sign language users to classify videos of people
performing signs by regressing a 3D mesh. We establish a new baseline for this
problem based on the statistical distribution of 725 different signs. Our
best-performing models achieve a micro-averaged F1-score of 58% for the major
location class and 70% for the sign type using statistical and deep learning
algorithms, compared to their corresponding baselines of 35% and 39%.
- Abstract(参考訳): 近年の自然言語処理の発展に触発されて,アメリカの手話利用者が検証した音韻特性に基づく手話処理への新しいアプローチを提案する。
音韻データと手話話者によるデータセットを活用することで,メッシュ再構成に基づく事前学習された深層モデルを用いて,シグナーキーポイントの3次元座標を抽出する。
そこで我々は,座標の各時間列に音韻クラスを割り当てるために,標準統計モデルと深層機械学習モデルを訓練する。
本稿では,手話利用者が手動で割り当てられた音韻的特性を利用して,3Dメッシュを回帰することで手話の映像を分類する手法を提案する。
725の異なる記号の統計分布に基づいて,この問題の新たなベースラインを確立する。
統計的および深層学習アルゴリズムを用いたマイクロ平均f1-scoreは,35%と39%のベースラインと比較して,平均f1-scoreが58%,手話タイプが70%であった。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - SignSpeak: Open-Source Time Series Classification for ASL Translation [0.12499537119440243]
本稿では,低コストでリアルタイムなASL-to-Speech翻訳グローブと手話パターンの学習データセットを提案する。
このデータセットを、LSTM、GRU、Transformersなどの教師付き学習モデルでベンチマークし、最高のモデルが92%の精度を達成した。
当社のオープンソースデータセット、モデル、グローブデザインは、コスト効率を維持しつつ、正確かつ効率的なASLトランスレータを提供する。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Sign Languague Recognition without frame-sequencing constraints: A proof
of concept on the Argentinian Sign Language [42.27617228521691]
本稿では,様々な特徴量に基づいてサブ分類器を結合した手話分類のための一般化確率モデルを提案する。
提案したモデルは、アルゼンチン手話データセットで97%の精度を達成した。
論文 参考訳(メタデータ) (2023-10-26T14:47:11Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。