論文の概要: Phonology Recognition in American Sign Language
- arxiv url: http://arxiv.org/abs/2110.00453v1
- Date: Fri, 1 Oct 2021 14:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:47:45.202227
- Title: Phonology Recognition in American Sign Language
- Title(参考訳): アメリカ手話における音韻認識
- Authors: Federico Tavella, Aphrodite Galata, Angelo Cangelosi
- Abstract要約: 本稿では,アメリカ手話利用者の音韻特性に基づいた手話処理手法を提案する。
音韻データと手話話者からなるデータセットを活用することで,メッシュ再構成に基づく事前訓練された深層モデルを用いて,手話キーポイントの3次元座標を抽出する。
我々は、座標の各時間列に音韻クラスを割り当てるために、標準的な統計的および深層機械学習モデルを訓練する。
- 参考スコア(独自算出の注目度): 1.396059473766045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by recent developments in natural language processing, we propose a
novel approach to sign language processing based on phonological properties
validated by American Sign Language users. By taking advantage of datasets
composed of phonological data and people speaking sign language, we use a
pretrained deep model based on mesh reconstruction to extract the 3D
coordinates of the signers keypoints. Then, we train standard statistical and
deep machine learning models in order to assign phonological classes to each
temporal sequence of coordinates.
Our paper introduces the idea of exploiting the phonological properties
manually assigned by sign language users to classify videos of people
performing signs by regressing a 3D mesh. We establish a new baseline for this
problem based on the statistical distribution of 725 different signs. Our
best-performing models achieve a micro-averaged F1-score of 58% for the major
location class and 70% for the sign type using statistical and deep learning
algorithms, compared to their corresponding baselines of 35% and 39%.
- Abstract(参考訳): 近年の自然言語処理の発展に触発されて,アメリカの手話利用者が検証した音韻特性に基づく手話処理への新しいアプローチを提案する。
音韻データと手話話者によるデータセットを活用することで,メッシュ再構成に基づく事前学習された深層モデルを用いて,シグナーキーポイントの3次元座標を抽出する。
そこで我々は,座標の各時間列に音韻クラスを割り当てるために,標準統計モデルと深層機械学習モデルを訓練する。
本稿では,手話利用者が手動で割り当てられた音韻的特性を利用して,3Dメッシュを回帰することで手話の映像を分類する手法を提案する。
725の異なる記号の統計分布に基づいて,この問題の新たなベースラインを確立する。
統計的および深層学習アルゴリズムを用いたマイクロ平均f1-scoreは,35%と39%のベースラインと比較して,平均f1-scoreが58%,手話タイプが70%であった。
関連論文リスト
- Neural Sign Actors: A diffusion model for 3D sign language production
from text [54.048218171283885]
手話は難聴者や難聴者のコミュニティにとって主要なコミュニケーション手段である。
深層学習はSL認識と翻訳の多くの手法を支援しており、顕著な成果を上げている。
この研究は、現実的なニューラルサインアバターに向けて重要かつ必要なステップを示し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Sign Languague Recognition without frame-sequencing constraints: A proof
of concept on the Argentinian Sign Language [42.27617228521691]
本稿では,様々な特徴量に基づいてサブ分類器を結合した手話分類のための一般化確率モデルを提案する。
提案したモデルは、アルゼンチン手話データセットで97%の精度を達成した。
論文 参考訳(メタデータ) (2023-10-26T14:47:11Z) - Fine-tuning of sign language recognition models: a technical report [0.0]
我々は、他の手話からのデータセットの微調整が、手話認識の品質向上に役立つか、そしてGPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてる。
モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードを提供する。
論文 参考訳(メタデータ) (2023-02-15T14:36:18Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Modeling Intensification for Sign Language Generation: A Computational
Approach [13.57903290481737]
エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
我々は、データ駆動方式で強化をモデル化することで、生成した手話における韻律を改善することを目指している。
自動メトリクスで評価すると、強化モデリングにおける我々の取り組みがより良い結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-03-18T01:13:21Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。