Fugu-MT 論文翻訳(概要): Towards End-to-end Unsupervised Speech Recognition

論文の概要: Towards End-to-end Unsupervised Speech Recognition

arxiv url: http://arxiv.org/abs/2204.02492v1
Date: Tue, 5 Apr 2022 21:22:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-08 02:35:41.119594
Title: Towards End-to-end Unsupervised Speech Recognition
Title（参考訳）: エンドツーエンドの教師なし音声認識に向けて
Authors: Alexander H. Liu, Wei-Ning Hsu, Michael Auli, Alexei Baevski
Abstract要約: 我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
参考スコア（独自算出の注目度）: 120.4915001021405
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Unsupervised speech recognition has shown great potential to make Automatic Speech Recognition (ASR) systems accessible to every language. However, existing methods still heavily rely on hand-crafted pre-processing. Similar to the trend of making supervised speech recognition end-to-end, we introduce \wvu~which does away with all audio-side pre-processing and improves accuracy through better architecture. In addition, we introduce an auxiliary self-supervised objective that ties model predictions back to the input. Experiments show that \wvu~improves unsupervised recognition results across different languages while being conceptually simpler.
Abstract（参考訳）: 教師なし音声認識は、すべての言語で自動音声認識(ASR)システムを実現する大きな可能性を示している。しかし、既存の手法は手作りの前処理に大きく依存している。教師付き音声認識のエンド・ツー・エンド化の傾向と同様に,すべての音声処理を廃止し,より優れたアーキテクチャによる精度の向上を実現している。さらに,モデル予測を入力に関連付ける補助的自己教師付き目標を提案する。実験により、 \wvu は概念的に単純でありながら、異なる言語間で教師なしの認識結果を改善できることが示されている。

関連論文リスト

Data-Driven Mispronunciation Pattern Discovery for Robust Speech Recognition [1.0323063834827417]
誤発音パターンを自動的に検出する2つのデータ駆動手法を提案する。非ネイティブな電話機をアテンションマップを使ってネイティブな電話機と整列させることで、ネイティブな英語データセットにおける音声認識の5.7%の改善を実現した。
論文参考訳（メタデータ） (2025-02-01T22:41:43Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文参考訳（メタデータ） (2023-02-03T01:36:38Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。 AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文参考訳（メタデータ） (2021-10-14T12:32:40Z)
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文参考訳（メタデータ） (2021-10-09T15:06:09Z)
UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文参考訳（メタデータ） (2021-01-19T12:53:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。