論文の概要: Challenges and Opportunities of Speech Recognition for Bengali Language
- arxiv url: http://arxiv.org/abs/2109.13217v1
- Date: Mon, 27 Sep 2021 17:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:19:59.111390
- Title: Challenges and Opportunities of Speech Recognition for Bengali Language
- Title(参考訳): ベンガル語における音声認識の課題と可能性
- Authors: M. F. Mridha, Abu Quwsar Ohi, Md. Abdul Hamid, Muhammad Mostafa
Monowar
- Abstract要約: 音声認識は言語に依存したシステムであり、任意の言語の言語的・テキスト的特性に基づいて直接構築される。
ASR(Automatic Speech Recognition)システムは、現在、音声をテキストに変換するために使われている。
ベンガル語におけるASRシステムの実装は、受け入れられる状態に達していない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognition is a fascinating process that offers the opportunity to
interact and command the machine in the field of human-computer interactions.
Speech recognition is a language-dependent system constructed directly based on
the linguistic and textual properties of any language. Automatic Speech
Recognition (ASR) systems are currently being used to translate speech to text
flawlessly. Although ASR systems are being strongly executed in international
languages, ASR systems' implementation in the Bengali language has not reached
an acceptable state. In this research work, we sedulously disclose the current
status of the Bengali ASR system's research endeavors. In what follows, we
acquaint the challenges that are mostly encountered while constructing a
Bengali ASR system. We split the challenges into language-dependent and
language-independent challenges and guide how the particular complications may
be overhauled. Following a rigorous investigation and highlighting the
challenges, we conclude that Bengali ASR systems require specific construction
of ASR architectures based on the Bengali language's grammatical and phonetic
structure.
- Abstract(参考訳): 音声認識は、人間とコンピュータのインタラクションの分野でマシンを対話し、指揮する機会を提供する魅力的なプロセスである。
音声認識は言語に依存したシステムであり、任意の言語の言語的・テキスト的特性に基づいて直接構築される。
ASR(Automatic Speech Recognition)システムは、現在、音声をテキストに変換するために使われている。
ASRシステムは国際言語で強く実行されているが、ベンガル語でのASRシステムの実装は受け入れられていない。
本研究は,ベンガルASRシステムの研究開発の現状を円滑に明らかにするものである。
以下に示すように、ベンガルのASRシステムの構築において、主に遭遇した課題について知る。
課題を言語に依存しない課題と言語に依存しない課題に分割し、特定の合併症をどのように改善するかをガイドします。
厳密な調査と課題の強調の後、ベンガル語の文法的・音声学的構造に基づくASRアーキテクチャの構築が必要であると結論付けている。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Cloud-based Automatic Speech Recognition Systems for Southeast Asian
Languages [22.37052773416904]
本稿では,東南アジア言語を対象とした音声認識システム(ASR)について概説する。
システムを構築する前には、音声とテキストリソースの制限、言語知識の欠如など、いくつかの困難に対処する必要がある。
論文 参考訳(メタデータ) (2022-10-07T14:28:40Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文 参考訳(メタデータ) (2021-04-21T20:21:06Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。