論文の概要: Cloud-based Automatic Speech Recognition Systems for Southeast Asian
Languages
- arxiv url: http://arxiv.org/abs/2210.03580v1
- Date: Fri, 7 Oct 2022 14:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:26:14.588789
- Title: Cloud-based Automatic Speech Recognition Systems for Southeast Asian
Languages
- Title(参考訳): クラウドベースの東南アジア言語自動音声認識システム
- Authors: Lei Wang, Rong Tong, Cheung Chi Leung, Sunil Sivadas, Chongjia Ni, Bin
Ma
- Abstract要約: 本稿では,東南アジア言語を対象とした音声認識システム(ASR)について概説する。
システムを構築する前には、音声とテキストリソースの制限、言語知識の欠如など、いくつかの困難に対処する必要がある。
- 参考スコア(独自算出の注目度): 22.37052773416904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides an overall introduction of our Automatic Speech
Recognition (ASR) systems for Southeast Asian languages. As not much existing
work has been carried out on such regional languages, a few difficulties should
be addressed before building the systems: limitation on speech and text
resources, lack of linguistic knowledge, etc. This work takes Bahasa Indonesia
and Thai as examples to illustrate the strategies of collecting various
resources required for building ASR systems.
- Abstract(参考訳): 本稿では,東南アジア言語を対象とした音声認識システム(ASR)の概要を紹介する。
このような地域言語に関する既存の研究はあまり行われていないため、音声・テキストリソースの制限、言語知識の欠如など、システム構築前にはいくつかの課題に対処する必要がある。
この研究はバハサ・インドネシアとタイを例に挙げ、ASRシステム構築に必要な様々な資源の収集戦略を説明する。
関連論文リスト
- Evaluating and Improving Automatic Speech Recognition Systems for Korean Meteorological Experts [35.32176244394426]
本稿では,韓国の気象学者を対象とした自然言語クエリシステムへの自動音声認識の統合について検討する。
韓国の気象分野におけるASRシステム開発における課題に対処する。
論文 参考訳(メタデータ) (2024-10-24T05:40:07Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - App for Resume-Based Job Matching with Speech Interviews and Grammar
Analysis: A Review [0.11249583407496219]
本稿では,ジョブインタビュー作成のための音声とテキストに基づく自然言語処理を提供するエンドツーエンドシステムの実現可能性について検討する。
既存のレコメンデータベースのシステムについても検討し、その制限に注意する。
論文 参考訳(メタデータ) (2023-11-20T18:03:08Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Challenges and Opportunities of Speech Recognition for Bengali Language [0.0]
音声認識は言語に依存したシステムであり、任意の言語の言語的・テキスト的特性に基づいて直接構築される。
ASR(Automatic Speech Recognition)システムは、現在、音声をテキストに変換するために使われている。
ベンガル語におけるASRシステムの実装は、受け入れられる状態に達していない。
論文 参考訳(メタデータ) (2021-09-27T17:38:26Z) - Automatic Speech Recognition using limited vocabulary: A survey [0.0]
アンダーリソース言語をターゲットにしたASRシステムを設計するためのアプローチは、限られた語彙から始めることである。
本稿では,ASRシステムの背後にあるメカニズムや技術,ツール,プロジェクト,最近のコントリビューション,さらには将来的な方向性を,限定語彙を用いて包括的に把握することを目的とする。
論文 参考訳(メタデータ) (2021-08-23T15:51:41Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Knowledge Distillation for Improved Accuracy in Spoken Question
Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。
我々の研究は、言語モデルから知識の抽出を監督信号として進めている。
実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-21T15:18:01Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。