論文の概要: Sign-to-Speech Model for Sign Language Understanding: A Case Study of
Nigerian Sign Language
- arxiv url: http://arxiv.org/abs/2111.00995v1
- Date: Mon, 1 Nov 2021 14:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 19:31:34.433329
- Title: Sign-to-Speech Model for Sign Language Understanding: A Case Study of
Nigerian Sign Language
- Title(参考訳): 手話理解のための手話理解モデル--ナイジェリア手話言語を事例として
- Authors: Steven Kolawole, Opeyemi Osakuade, Nayan Saxena, Babatunde Kazeem
Olorisade
- Abstract要約: このデータセットはナイジェリア手話の先駆的なデータセットである。
我々は2つの異なる物体検出モデルと分類モデルに対して、データを準備的に前処理した。
我々は、手話/フレーズをテキストに変換し、その後音声に変換する、リアルタイムかつ印象的な結果が得られる軽量アプリケーションに、最高のパフォーマンスモデルを展開する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through this paper, we seek to reduce the communication barrier between the
hearing-impaired community and the larger society who are usually not familiar
with sign language in the sub-Saharan region of Africa with the largest
occurrences of hearing disability cases, while using Nigeria as a case study.
The dataset is a pioneer dataset for the Nigerian Sign Language and was created
in collaboration with relevant stakeholders. We pre-processed the data in
readiness for two different object detection models and a classification model
and employed diverse evaluation metrics to gauge model performance on
sign-language to text conversion tasks. Finally, we convert the predicted sign
texts to speech and deploy the best performing model in a lightweight
application that works in real-time and achieves impressive results converting
sign words/phrases to text and subsequently, into speech.
- Abstract(参考訳): 本稿では,ナイジェリアを事例として,アフリカのサハラ以南地域において,手話に精通していない一般社会と難聴者のコミュニケーション障壁を低減し,難聴症例が最も多い地域社会のコミュニケーション障壁を緩和することを目的とした。
このデータセットはナイジェリア手話言語の先駆的なデータセットであり、関連する利害関係者と共同で作成された。
2つの異なるオブジェクト検出モデルと分類モデルに対する準備状態のデータを前処理し,手話からテキストへの変換タスクにおけるモデル性能を測定するために多様な評価指標を用いた。
最後に、予測した手話テキストを音声に変換し、リアルタイムに動作し、手話/フレーズをテキストに変換し、次に音声に変換する印象的な結果を達成する軽量アプリケーションにおいて、最高のパフォーマンスモデルを展開する。
関連論文リスト
- Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - Modeling Intensification for Sign Language Generation: A Computational
Approach [13.57903290481737]
エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
我々は、データ駆動方式で強化をモデル化することで、生成した手話における韻律を改善することを目指している。
自動メトリクスで評価すると、強化モデリングにおける我々の取り組みがより良い結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-03-18T01:13:21Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。