論文の概要: End-to-End Automatic Speech Recognition model for the Sudanese Dialect
- arxiv url: http://arxiv.org/abs/2212.10826v1
- Date: Wed, 21 Dec 2022 07:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:45:38.998185
- Title: End-to-End Automatic Speech Recognition model for the Sudanese Dialect
- Title(参考訳): スーダン方言のエンドツーエンド自動音声認識モデル
- Authors: Ayman Mansour, Wafaa F. Mukhtar
- Abstract要約: 本稿では,スーダン方言における音声認識モデルの設計の可能性を検討する。
本稿では,スーダン方言の概要と表現資源の収集作業,および質素なデータセット構築のための前処理について述べる。
設計されたモデルは、現在の認識タスクに関するいくつかの洞察を与え、平均的なラベルエラーレート73.67%に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing a natural voice interface rely mostly on Speech recognition for
interaction between human and their modern digital life equipment. In addition,
speech recognition narrows the gap between monolingual individuals to better
exchange communication. However, the field lacks wide support for several
universal languages and their dialects, while most of the daily conversations
are carried out using them. This paper comes to inspect the viability of
designing an Automatic Speech Recognition model for the Sudanese dialect, which
is one of the Arabic Language dialects, and its complexity is a product of
historical and social conditions unique to its speakers. This condition is
reflected in both the form and content of the dialect, so this paper gives an
overview of the Sudanese dialect and the tasks of collecting represented
resources and pre-processing performed to construct a modest dataset to
overcome the lack of annotated data. Also proposed end- to-end speech
recognition model, the design of the model was formed using Convolution Neural
Networks. The Sudanese dialect dataset would be a stepping stone to enable
future Natural Language Processing research targeting the dialect. The designed
model provided some insights into the current recognition task and reached an
average Label Error Rate of 73.67%.
- Abstract(参考訳): 自然音声インタフェースの設計は、人間と現代のデジタルライフ機器の相互作用を音声認識に主に依存している。
さらに音声認識によって、単言語話者間のギャップが狭まり、コミュニケーションの交換が容易になる。
しかし、この分野はいくつかの普遍言語とその方言に対する広範なサポートを欠いているが、日常会話のほとんどはそれらを用いて行われている。
本稿では,アラビア語方言の一つであるスーダン方言における音声認識モデルの設計の可能性について検討し,その複雑さは話者特有の歴史的・社会的条件の産物であることを示す。
この条件は方言の形式と内容の両方に反映されるため,本論文では,アノテートされたデータの欠如を克服する控えめなデータセットを構築するために,スーダン方言と代表的資源収集タスクの概要と前処理について述べる。
また、エンドツーエンド音声認識モデルを提案し、畳み込みニューラルネットワークを用いてモデルの設計を行った。
スーダン方言データセットは、将来この方言をターゲットとした自然言語処理研究を可能にするための一歩となる。
設計したモデルは、現在の認識タスクに関する洞察を提供し、平均的なラベルエラー率73.67%に達した。
関連論文リスト
- Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。
これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。
この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文 参考訳(メタデータ) (2024-07-02T03:22:41Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。