論文の概要: Exploiting Cross-Lingual Knowledge in Unsupervised Acoustic Modeling for
Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2007.15074v1
- Date: Wed, 29 Jul 2020 19:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 20:45:00.730761
- Title: Exploiting Cross-Lingual Knowledge in Unsupervised Acoustic Modeling for
Low-Resource Languages
- Title(参考訳): 低リソース言語のための教師なし音響モデルにおける言語間知識の活用
- Authors: Siyuan Feng
- Abstract要約: ゼロリソースシナリオにおける自動音声認識(ASR)のための教師なし音響モデリング(UAM)
第一の問題は、与えられた言語における基本的な(サブワードレベルの)音声ユニットの教師なし発見に関するものである。
第二の問題は教師なしサブワードモデリング(unsupervised subword modeling)と呼ばれる。
- 参考スコア(独自算出の注目度): 14.297371692669545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: (Short version of Abstract) This thesis describes an investigation on
unsupervised acoustic modeling (UAM) for automatic speech recognition (ASR) in
the zero-resource scenario, where only untranscribed speech data is assumed to
be available. UAM is not only important in addressing the general problem of
data scarcity in ASR technology development but also essential to many
non-mainstream applications, for examples, language protection, language
acquisition and pathological speech assessment. The present study is focused on
two research problems. The first problem concerns unsupervised discovery of
basic (subword level) speech units in a given language. Under the zero-resource
condition, the speech units could be inferred only from the acoustic signals,
without requiring or involving any linguistic direction and/or constraints. The
second problem is referred to as unsupervised subword modeling. In its essence
a frame-level feature representation needs to be learned from untranscribed
speech. The learned feature representation is the basis of subword unit
discovery. It is desired to be linguistically discriminative and robust to
non-linguistic factors. Particularly extensive use of cross-lingual knowledge
in subword unit discovery and modeling is a focus of this research.
- Abstract(参考訳): (要約の短縮版)
本論文は,非書き起こし音声データのみを利用可能と仮定したゼロリソースシナリオにおける自動音声認識(asr)のための教師なし音響モデル(uam)の検討について述べる。
UAMは、ASR技術開発におけるデータ不足の一般的な問題に対処する上で重要であるだけでなく、言語保護、言語習得、病理学的言語評価など、多くの非主流アプリケーションに必須である。
本研究は2つの研究課題に焦点をあてる。
最初の問題は、与えられた言語における基本的な(サブワードレベルの)音声ユニットの教師なし発見に関するものである。
ゼロリソース条件下では、音声単位は言語的方向や制約を必要とせず、音響信号からのみ推測することができる。
第2の問題は教師なしサブワードモデリングと呼ばれる。
本質的には、フレームレベルの特徴表現は、転写されていない音声から学ぶ必要がある。
学習された特徴表現はサブワード単位発見の基礎である。
言語的に差別的で、非言語的要因に頑健であることが望まれる。
特にサブワード単位の発見とモデリングにおける言語間知識の広範な利用が本研究の焦点となっている。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Multilingual acoustic word embeddings for zero-resource languages [1.5229257192293204]
音響単語埋め込み (AWE) - 可変重み付き音声セグメントの固定次元表現。
この研究は、ゼロリソース言語上の既存のAWEモデルを上回る、新しいニューラルネットワークを導入している。
AWEは、スワヒリ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用される。
論文 参考訳(メタデータ) (2024-01-19T08:02:37Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Unsupervised Automatic Speech Recognition: A Review [2.6212127510234797]
研究文献をレビューし、完全に教師なしのASRにつながる可能性のあるモデルとアイデアを特定します。
本研究の目的は,音声データのみから学習できることの限界を特定し,音声認識の最小要件を理解することである。
論文 参考訳(メタデータ) (2021-06-09T08:33:20Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。