論文の概要: Code-Switched Urdu ASR for Noisy Telephonic Environment using Data
Centric Approach with Hybrid HMM and CNN-TDNN
- arxiv url: http://arxiv.org/abs/2307.12759v1
- Date: Mon, 24 Jul 2023 13:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 14:23:34.033689
- Title: Code-Switched Urdu ASR for Noisy Telephonic Environment using Data
Centric Approach with Hybrid HMM and CNN-TDNN
- Title(参考訳): ハイブリットhmmとcnn-tdnnを用いたデータ中心アプローチによる雑音環境用コード切替えurdu asr
- Authors: Muhammad Danyal Khan, Raheem Ali and Arshad Aziz
- Abstract要約: ウルドゥー語は世界で10番目に広く話されている言語であり、世界中で231,295,440が今もASRの資源制約言語として残っている。
本稿では,雑音の多いコールセンタ環境下で,リソース効率の良い音声認識/音声音声テキストシステムの実装フレームワークについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Call Centers have huge amount of audio data which can be used for achieving
valuable business insights and transcription of phone calls is manually tedious
task. An effective Automated Speech Recognition system can accurately
transcribe these calls for easy search through call history for specific
context and content allowing automatic call monitoring, improving QoS through
keyword search and sentiment analysis. ASR for Call Center requires more
robustness as telephonic environment are generally noisy. Moreover, there are
many low-resourced languages that are on verge of extinction which can be
preserved with help of Automatic Speech Recognition Technology. Urdu is the
$10^{th}$ most widely spoken language in the world, with 231,295,440 worldwide
still remains a resource constrained language in ASR. Regional call-center
conversations operate in local language, with a mix of English numbers and
technical terms generally causing a "code-switching" problem. Hence, this paper
describes an implementation framework of a resource efficient Automatic Speech
Recognition/ Speech to Text System in a noisy call-center environment using
Chain Hybrid HMM and CNN-TDNN for Code-Switched Urdu Language. Using Hybrid
HMM-DNN approach allowed us to utilize the advantages of Neural Network with
less labelled data. Adding CNN with TDNN has shown to work better in noisy
environment due to CNN's additional frequency dimension which captures extra
information from noisy speech, thus improving accuracy. We collected data from
various open sources and labelled some of the unlabelled data after analysing
its general context and content from Urdu language as well as from commonly
used words from other languages, primarily English and were able to achieve WER
of 5.2% with noisy as well as clean environment in isolated words or numbers as
well as in continuous spontaneous speech.
- Abstract(参考訳): コールセンターには膨大な量の音声データがあり、ビジネス上の貴重な洞察と電話の書き起こしが手作業で面倒な作業である。
効果的な自動音声認識システムは、キーワード検索と感情分析によるQoSの改善を可能にする、特定のコンテキストとコンテンツに対するコール履歴によるこれらの呼び出しを正確に書き起こすことができる。
ASR for Call Centerは、電話環境が一般的にうるさいため、より堅牢性を必要とする。
さらに、自動音声認識技術によって保存可能な、絶滅寸前にある低ソース言語も数多く存在する。
urduは世界でもっとも広く話されている言語であり、世界で231,295,440は依然としてasrの資源制限言語である。
地域コールセンタの会話は、英語の数字と技術的な用語が混ざり合わさって、一般的に「コードスイッチング」の問題を引き起こす。
そこで本論文では,チェインハイブリッドHMMとCNN-TDNNをコードスイッチングウルドゥー語用として用いた,雑音の多いコールセンタ環境におけるリソース効率の良い音声認識/音声テキストシステムの実装フレームワークについて述べる。
ハイブリッドHMM-DNNアプローチを用いることで、ラベル付きデータの少ないニューラルネットワークの利点を活用できる。
CNNとTDNNを組み合わせることで、雑音の多い音声から余分な情報をキャプチャし、精度を向上させるCNNの追加周波数次元により、ノイズの多い環境でよりうまく機能することが示されている。
様々なオープンソースからデータを集め,ウルドゥー語や他の言語,主に英語の一般的な単語から一般の文脈や内容を分析し,孤立した単語や数字のクリーンな環境だけでなく,連続的な自発的な発話においても5.2%の環境を実現することができた。
関連論文リスト
- Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Multilingual acoustic word embeddings for zero-resource languages [1.5229257192293204]
音響単語埋め込み (AWE) - 可変重み付き音声セグメントの固定次元表現。
この研究は、ゼロリソース言語上の既存のAWEモデルを上回る、新しいニューラルネットワークを導入している。
AWEは、スワヒリ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用される。
論文 参考訳(メタデータ) (2024-01-19T08:02:37Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning [0.0]
本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。
提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
論文 参考訳(メタデータ) (2022-09-16T18:20:16Z) - Adversarial synthesis based data-augmentation for code-switched spoken
language identification [0.0]
音声言語識別(LID)は自動音声認識(ASR)の重要なサブタスクである
本研究は、英語と混在するIndic言語に焦点をあてる。
Mel Spectrograms を用いたGANに基づく音声データの拡張手法
論文 参考訳(メタデータ) (2022-05-30T06:41:13Z) - HUI-Audio-Corpus-German: A high quality TTS dataset [0.0]
HUI-Audio-Corpus-German"は、TTSエンジン用の大規模なオープンソースデータセットで、処理パイプラインで作成されている。
このデータセットは、高品質なオーディオから書き起こしアライメントを生成し、作成に必要な手作業を減らす。
論文 参考訳(メタデータ) (2021-06-11T10:59:09Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。