論文の概要: Collaborative Training of Acoustic Encoders for Speech Recognition
- arxiv url: http://arxiv.org/abs/2106.08960v1
- Date: Wed, 16 Jun 2021 17:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:29:26.994265
- Title: Collaborative Training of Acoustic Encoders for Speech Recognition
- Title(参考訳): 音声認識のための音響エンコーダの協調学習
- Authors: Varun Nagaraja, Yangyang Shi, Ganesh Venkatesh, Ozlem Kalinli, Michael
L. Seltzer, Vikas Chandra
- Abstract要約: 音声認識のための異なる大きさの音響エンコーダを協調的に訓練する手法を提案する。
We performed experiment using the LibriSpeech corpus and demonstrate that the collaboratively trained acoustic encoders can provide a 11% relative improvement in the word error rate。
- 参考スコア(独自算出の注目度): 15.200846745937763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device speech recognition requires training models of different sizes for
deploying on devices with various computational budgets. When building such
different models, we can benefit from training them jointly to take advantage
of the knowledge shared between them. Joint training is also efficient since it
reduces the redundancy in the training procedure's data handling operations. We
propose a method for collaboratively training acoustic encoders of different
sizes for speech recognition. We use a sequence transducer setup where
different acoustic encoders share a common predictor and joiner modules. The
acoustic encoders are also trained using co-distillation through an auxiliary
task for frame level chenone prediction, along with the transducer loss. We
perform experiments using the LibriSpeech corpus and demonstrate that the
collaboratively trained acoustic encoders can provide up to a 11% relative
improvement in the word error rate on both the test partitions.
- Abstract(参考訳): オンデバイス音声認識は、様々な計算予算のデバイスにデプロイするために、異なるサイズのトレーニングモデルを必要とする。
このような異なるモデルを構築する場合、それら間で共有される知識を活用するために、共同でトレーニングすることで利益を得ることができる。
ジョイントトレーニングは、トレーニング手順のデータハンドリング操作の冗長性を低減できるため、効率的である。
音声認識のための異なる大きさの音響エンコーダを協調訓練する手法を提案する。
異なる音響エンコーダが共通の予測器と結合モジュールを共有するシーケンストランスデューサ設定を用いる。
音響エンコーダは、トランスデューサの損失とともにフレームレベルのチェノン予測の補助タスクを通じて共蒸留を用いて訓練される。
我々は,LibriSpeechコーパスを用いて実験を行い,協調的に訓練された音響エンコーダが両テスト分割における単語誤り率を最大11%向上させることができることを示した。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - Revisiting joint decoding based multi-talker speech recognition with DNN
acoustic model [34.061441900912136]
このようなスキームは準最適であり、すべての話者を共同で復号する原理的解法を提案する。
本研究では,全ての話者の関節後部状態を予測するために音響モデルを改良し,話者への音声信号の一部の帰属に関する不確実性をネットワークが表現できるようにする。
論文 参考訳(メタデータ) (2021-10-31T09:28:04Z) - Semi-supervised Learning for Singing Synthesis Timbre [22.75251024528604]
音声データのみから新しい音声を学習できる半教師付き歌唱シンセサイザーを提案する。
本システムは,2つのエンコーダ,言語と音響,および1つの(音響)デコーダを備えたエンコーダ・デコーダモデルである。
聴取テストによりシステム評価を行い、その結果が等価な教師付きアプローチで得られたものと同等であることを示す。
論文 参考訳(メタデータ) (2020-11-05T13:33:34Z) - Boosted Locality Sensitive Hashing: Discriminative Binary Codes for
Source Separation [19.72987718461291]
音声スペクトルを効率よく表現する局所性に敏感なハッシュ符号を学習するための適応的な促進手法を提案する。
我々は、複雑な機械学習モデルの代替として、学習したハッシュコードを単一チャネルの音声認識タスクに使用する。
論文 参考訳(メタデータ) (2020-02-14T20:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。