論文の概要: Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages
- arxiv url: http://arxiv.org/abs/2103.14583v1
- Date: Fri, 26 Mar 2021 16:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 14:52:25.668484
- Title: Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages
- Title(参考訳): 絶滅危惧言語からの未転写音声へのアクセスを容易にする神経表現の活用
- Authors: Nay San, Martijn Bartelds, Mitchell Browne, Lily Clifford, Fiona
Gibson, John Mansfield, David Nash, Jane Simpson, Myfany Turpin, Maria
Vollmer, Sasha Wilmoth, Dan Jurafsky
- Abstract要約: オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
- 参考スコア(独自算出の注目度): 10.61744395262441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For languages with insufficient resources to train speech recognition
systems, query-by-example spoken term detection (QbE-STD) offers a way of
accessing an untranscribed speech corpus by helping identify regions where
spoken query terms occur. Yet retrieval performance can be poor when the query
and corpus are spoken by different speakers and produced in different recording
conditions. Using data selected from a variety of speakers and recording
conditions from 7 Australian Aboriginal languages and a regional variety of
Dutch, all of which are endangered or vulnerable, we evaluated whether QbE-STD
performance on these languages could be improved by leveraging representations
extracted from the pre-trained English wav2vec 2.0 model. Compared to the use
of Mel-frequency cepstral coefficients and bottleneck features, we find that
representations from the middle layers of the wav2vec 2.0 Transformer offer
large gains in task performance (between 56% and 86%). While features extracted
using the pre-trained English model yielded improved detection on all the
evaluation languages, better detection performance was associated with the
evaluation language's phonological similarity to English.
- Abstract(参考訳): 音声認識システムの訓練に資源が不足している言語に対して、QbE-STD (QbE-STD) は、音声クエリ項が発生する地域を特定することで、転写されていない音声コーパスにアクセスする方法を提供する。
しかし、クエリとコーパスが異なる話者によって話され、異なる記録条件で生成される場合、検索性能は低下する可能性がある。
オーストラリア・アボリジニ言語7言語とオランダの諸言語から選択された様々な話者と記録条件を用いて,事前学習した英語wav2vec 2.0モデルから抽出した表現を活用して,これらの言語上でのQbE-STDの性能を向上できるかを評価する。
メル周波数ケプストラム係数やボトルネック特性と比較して,wav2vec 2.0変換器の中間層からの表現はタスク性能(56%から86%)を大きく向上させることがわかった。
事前学習された英語モデルを用いて抽出された特徴は、すべての評価言語における検出を改善したが、より優れた検出性能は、評価言語の英語と音韻学的類似性と関連づけられた。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Predicting positive transfer for improved low-resource speech
recognition using acoustic pseudo-tokens [31.83988006684616]
我々は、ターゲット言語を、類似の高リソースの「ドナー」言語からのデータで補うことが役立つことを示す。
例えば、60時間ドナーのヒンディーが補充された低リソースのパンジャービの10時間のみの事前訓練は、70時間ドナーのパンジャービの70時間ドナーのほぼ同程度である。
論文 参考訳(メタデータ) (2024-02-03T23:54:03Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。