論文の概要: PAMP: A unified framework boosting low resource automatic speech
recognition
- arxiv url: http://arxiv.org/abs/2302.03498v1
- Date: Sun, 5 Feb 2023 09:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:04:33.203609
- Title: PAMP: A unified framework boosting low resource automatic speech
recognition
- Title(参考訳): PAMP:低リソース自動音声認識を促進する統合フレームワーク
- Authors: Zeping Min, Qian Ge, Zhong Li and Weinan E
- Abstract要約: 低リソース自動音声認識(ASR)タスクのための新しいTTS(text-to-speech)データ拡張フレームワーク(PAMP)を提案する。
PAMP法は非常に解釈が容易で、発音規則の事前知識を取り入れることができる。さらに、PAMPは低リソースのASRタスクに対してほとんどどんな言語でも容易に展開できる。
- 参考スコア(独自算出の注目度): 17.29440908645809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel text-to-speech (TTS) data augmentation framework for low
resource automatic speech recognition (ASR) tasks, named phoneme audio mix up
(PAMP). The PAMP method is highly interpretable and can incorporate prior
knowledge of pronunciation rules. Furthermore, PAMP can be easily deployed in
almost any language, extremely for low resource ASR tasks. Extensive
experiments have demonstrated the great effectiveness of PAMP on low resource
ASR tasks: we achieve a \textbf{10.84\%} character error rate (CER) on the
common voice Cantonese ASR task, bringing a great relative improvement of about
\textbf{30\%} compared to the previous state-of-the-art which was achieved by
fine-tuning the wav2vec2 pretrained model.
- Abstract(参考訳): 本稿では,低リソース自動音声認識(ASR)タスクのための新しいTTS(text-to-speech)データ拡張フレームワーク,名前付き音声合成(PAMP)を提案する。
PAMP法は高度に解釈可能であり、発音規則の事前知識を組み込むことができる。
さらに、pampは、ほとんどどんな言語でも簡単にデプロイでき、リソースの少ないasrタスクには非常に適しています。
広汎な実験により、低リソースASRタスクにおけるPAMPの大幅な効果が示された: 共通音声カントンASRタスク上での文字誤り率(CER)を達成し、wav2vec2事前訓練モデルの微調整によって達成された従来の最先端技術と比較して、約1,30\%の大幅な改善を実現した。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Parameter-efficient Adaptation of Multilingual Multimodal Models for Low-resource ASR [25.566285376879094]
マルチモーダルモデルは、テキストのみの適応とパラメータ効率のよいASR微調整によって、ラベルなしのテキストを活用することができる。
ゼロショット設定でベースラインよりも17%のWER削減を実現し,ハイリソース言語からの言語間移動を示す。
論文 参考訳(メタデータ) (2024-10-17T11:19:44Z) - Extending Whisper with prompt tuning to target-speaker ASR [18.31992429200396]
ターゲット話者自動音声認識(Target-Speaker Automatic Speech Recognition, ASR)は、ターゲット話者の所望の音声を重なり合う発話から書き起こすことを目的としている。
既存のターゲットスピーカーASR(TS-ASR)の手法のほとんどは、スクラッチからトレーニングするか、事前訓練されたモデルを完全に微調整するものである。
この研究は、パラメータ効率のよい微調整手法であるプロンプトチューニングを利用して、大規模なシングルストーカーASRモデルであるWhisperをTS-ASRに拡張する。
論文 参考訳(メタデータ) (2023-12-13T11:49:16Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Curriculum optimization for low-resource speech recognition [4.803994937990389]
本稿では,学習事例の順序を最適化する自動カリキュラム学習手法を提案する。
様々な雑音条件下で生音声のスコアリング機能として使用できる圧縮比と呼ばれる新しい難易度尺度を導入する。
論文 参考訳(メタデータ) (2022-02-17T19:47:50Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。