論文の概要: Multi-Dialect Arabic Speech Recognition
- arxiv url: http://arxiv.org/abs/2112.14678v1
- Date: Sat, 25 Dec 2021 20:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-31 09:14:29.760578
- Title: Multi-Dialect Arabic Speech Recognition
- Title(参考訳): 多次元アラビア音声認識
- Authors: Abbas Raza Ali
- Abstract要約: 本稿では,アラビア語に対する多言語自動音声認識の設計と開発について述べる。
ディープニューラルネットワークは、シーケンシャルなデータ問題を解決する効果的なツールになりつつある。
提案方式は14%の誤差率を達成し, 従来のシステムより優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the design and development of multi-dialect automatic
speech recognition for Arabic. Deep neural networks are becoming an effective
tool to solve sequential data problems, particularly, adopting an end-to-end
training of the system. Arabic speech recognition is a complex task because of
the existence of multiple dialects, non-availability of large corpora, and
missing vocalization. Thus, the first contribution of this work is the
development of a large multi-dialectal corpus with either full or at least
partially vocalized transcription. Additionally, the open-source corpus has
been gathered from multiple sources that bring non-standard Arabic alphabets in
transcription which are normalized by defining a common character-set. The
second contribution is the development of a framework to train an acoustic
model achieving state-of-the-art performance. The network architecture
comprises of a combination of convolutional and recurrent layers. The
spectrogram features of the audio data are extracted in the frequency vs time
domain and fed in the network. The output frames, produced by the recurrent
model, are further trained to align the audio features with its corresponding
transcription sequences. The sequence alignment is performed using a beam
search decoder with a tetra-gram language model. The proposed system achieved a
14% error rate which outperforms previous systems.
- Abstract(参考訳): 本稿では,アラビア語用マルチダイアレクト自動音声認識の設計と開発について述べる。
ディープニューラルネットワークは、特にシステムのエンドツーエンドのトレーニングを採用することで、シーケンシャルなデータ問題を解決する効果的なツールになりつつある。
アラビア語の音声認識は、複数の方言が存在すること、大きなコーパスが利用できないこと、発声が欠けていることなど、複雑なタスクである。
したがって、この研究の最初の貢献は、完全なまたは少なくとも部分的に発声された転写を持つ大きな多方言コーパスの開発である。
さらに、オープンソースコーパスは、共通文字セットを定義することによって正規化される非標準アラビア語のアルファベットを転写にもたらす複数のソースから集められている。
第2の貢献は、最先端のパフォーマンスを実現する音響モデルをトレーニングするためのフレームワークの開発である。
ネットワークアーキテクチャは畳み込み層と再帰層の組み合わせで構成されている。
音声データのスペクトログラム特徴を周波数対時間領域で抽出し、ネットワークに供給する。
繰り返しモデルによって生成された出力フレームはさらに訓練され、オーディオ特徴と対応する転写シーケンスを整列する。
このシーケンスアライメントは、テトラグラム言語モデルを持つビームサーチデコーダを用いて行われる。
提案方式は14%の誤差率を達成し,従来のシステムより優れていた。
関連論文リスト
- Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - DeepFry: Identifying Vocal Fry Using Deep Neural Networks [16.489251286870704]
声質フライ(Vocal fry)は、不規則な声門の開口と低ピッチを特徴とする声質を指す。
不規則な周期性のため、難解な音声は自動音声認識システムに挑戦する。
本稿では,流速音声における難解な音声を検出するためのディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:23:24Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。
トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。
ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文 参考訳(メタデータ) (2021-05-07T00:12:02Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。