論文の概要: Learning Robust and Multilingual Speech Representations
- arxiv url: http://arxiv.org/abs/2001.11128v1
- Date: Wed, 29 Jan 2020 23:24:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 20:53:07.294591
- Title: Learning Robust and Multilingual Speech Representations
- Title(参考訳): 学習ロバストと多言語音声表現
- Authors: Kazuya Kawakami, Luyu Wang, Chris Dyer, Phil Blunsom, Aaron van den
Oord
- Abstract要約: 我々は最大8000時間に及ぶ多彩でノイズの多い音声データから表現を学習する。
ドメインシフトに対する頑健さと,多くの言語で認識性能を向上させる能力について検討し,その表現性を評価する。
- 参考スコア(独自算出の注目度): 38.34632996576116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised speech representation learning has shown remarkable success at
finding representations that correlate with phonetic structures and improve
downstream speech recognition performance. However, most research has been
focused on evaluating the representations in terms of their ability to improve
the performance of speech recognition systems on read English (e.g. Wall Street
Journal and LibriSpeech). This evaluation methodology overlooks two important
desiderata that speech representations should have: robustness to domain shifts
and transferability to other languages. In this paper we learn representations
from up to 8000 hours of diverse and noisy speech data and evaluate the
representations by looking at their robustness to domain shifts and their
ability to improve recognition performance in many languages. We find that our
representations confer significant robustness advantages to the resulting
recognition systems: we see significant improvements in out-of-domain transfer
relative to baseline feature sets and the features likewise provide
improvements in 25 phonetically diverse languages including tonal languages and
low-resource languages.
- Abstract(参考訳): 教師なしの音声表現学習は、音声構造と相関し、下流音声認識性能を向上させる表現を見つけることに顕著な成功を収めている。
しかし、ほとんどの研究は、読み上げ英語(例えば、wall street journalやlibrispeech)での音声認識システムの性能を向上させる能力の観点から、表現の評価に焦点を当てている。
この評価手法では、言語表現が持つべき2つの重要なデシデラタを見下ろしている。
本稿では,最大8000時間に及ぶ多言語音声データから表現を学習し,ドメインシフトに対する頑健さと,多くの言語で認識性能を向上させる能力に着目して表現を評価する。
私たちは、ベースライン機能セットと比較してドメイン外転送が大幅に改善され、機能もまた、声調言語や低リソース言語を含む25の音声に多様性のある言語で改善されています。
関連論文リスト
- DASB -- Discrete Audio and Speech Benchmark [12.02056212008393]
我々は、様々なタスクで離散オーディオトークンをベンチマークするためのリーダーボードである、離散オーディオおよび音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現の間のパフォーマンスのギャップは依然として大きい。
論文 参考訳(メタデータ) (2024-06-20T13:23:27Z) - Exploring the Benefits of Tokenization of Discrete Acoustic Units [4.591279524925446]
トークン化アルゴリズムは、基本語彙の単位をより大きな可変レート単位にマージする。
トークン化は、トレーニングや推論の速度だけでなく、パフォーマンスの観点からも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-06-08T18:34:28Z) - Mitigating the Linguistic Gap with Phonemic Representations for Robust Cross-lingual Transfer [26.014079273740485]
多言語理解の改善へのアプローチは、高リソース言語と低リソース言語の間の大きなパフォーマンスギャップに悩まされることが多い。
本研究は,12言語を対象とした3つの言語間タスクに関する実験である。
音韻表現は、正書法表現と比較して言語間の類似性が高い。
論文 参考訳(メタデータ) (2024-02-22T04:41:52Z) - The Effect of Spoken Language on Speech Enhancement using
Self-Supervised Speech Representation Loss Functions [21.237026538221404]
本研究は、自己教師型表現の訓練に用いられる音声の言語と、SEシステムの訓練に用いられる音声との関係を考察する。
SEシステムのトレーニングに使用するノイズの多いデータの言語を正確に共有する自己教師付き表現を組み込んだ損失関数を用いてトレーニングされた強化モデルは、正確に一致しないものよりも優れた性能を示す。
自己教師型表現の訓練言語は,強化性能に小さな影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2023-07-27T09:20:38Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。