論文の概要: WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language
- arxiv url: http://arxiv.org/abs/2203.06096v1
- Date: Fri, 11 Mar 2022 17:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 12:17:31.503784
- Title: WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language
- Title(参考訳): WLASL-LEX:アメリカの手話における音韻特性を認識するデータセット
- Authors: Federico Tavella and Viktor Schlegel and Marta Romeo and Aphrodite
Galata and Angelo Cangelosi
- Abstract要約: 我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 2.814213966364155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Signed Language Processing (SLP) concerns the automated processing of signed
languages, the main means of communication of Deaf and hearing impaired
individuals. SLP features many different tasks, ranging from sign recognition
to translation and production of signed speech, but has been overlooked by the
NLP community thus far. In this paper, we bring to attention the task of
modelling the phonology of sign languages. We leverage existing resources to
construct a large-scale dataset of American Sign Language signs annotated with
six different phonological properties. We then conduct an extensive empirical
study to investigate whether data-driven end-to-end and feature-based
approaches can be optimised to automatically recognise these properties. We
find that, despite the inherent challenges of the task, graph-based neural
networks that operate over skeleton features extracted from raw videos are able
to succeed at the task to a varying degree. Most importantly, we show that this
performance pertains even on signs unobserved during training.
- Abstract(参考訳): 署名言語処理(SLP)は、聴覚障害者と聴覚障害者のコミュニケーション手段である署名言語の自動処理に関するものである。
SLPは、手話の認識から翻訳、生成まで、様々なタスクを特徴としているが、これまでNLPコミュニティでは見過ごされてきた。
本稿では,手話の音韻学をモデル化するタスクに注目する。
我々は既存の資源を活用し、6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築する。
次に、データ駆動のエンドツーエンドと特徴に基づくアプローチが、これらの特性を自動認識するために最適化できるかどうかを、広範な実証的研究を行う。
タスクの固有の課題にもかかわらず、生の動画から抽出されたスケルトン機能で操作するグラフベースのニューラルネットワークは、タスクである程度の成功を収めることができます。
最も重要なのは、このパフォーマンスがトレーニング中に観察できないサインにも関係していることを示しています。
関連論文リスト
- Signs as Tokens: An Autoregressive Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
我々は,手話とLMを整合させるために,連続する記号を様々な身体部分を表すトークン列に識別する切り離されたトークン化器を開発した。
これらのサイントークンは、LMの生のテキスト語彙に統合され、手話データセットの教師付き微調整を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。
まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。
次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文 参考訳(メタデータ) (2023-08-21T15:58:47Z) - Improving Sign Recognition with Phonology [8.27285154257448]
我々は、アメリカ手話音声学の研究から得られた知見を用いて、手話認識のためのモデルを訓練する。
我々は、サインだけでなく、その音韻特性を予測するために、シングルサインを生成するシグナーのポーズ推定を行うISLRモデルを訓練する。
これらの補助予測は、WLASLベンチマークの符号認識精度を9%近く向上させる。
論文 参考訳(メタデータ) (2023-02-11T18:51:23Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。