論文の概要: Semi-Supervised Speech Recognition via Local Prior Matching
- arxiv url: http://arxiv.org/abs/2002.10336v1
- Date: Mon, 24 Feb 2020 16:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:18:39.289679
- Title: Semi-Supervised Speech Recognition via Local Prior Matching
- Title(参考訳): 局所事前マッチングによる半教師付き音声認識
- Authors: Wei-Ning Hsu, Ann Lee, Gabriel Synnaeve, Awni Hannun
- Abstract要約: 局所的な事前マッチングは、強い事前から知識を蒸留する半教師付き目的である。
我々は,LPMが理論的に良好であり,実装が容易であり,既存の知識蒸留技術よりも優れていることを実証した。
- 参考スコア(独自算出の注目度): 42.311823406287864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For sequence transduction tasks like speech recognition, a strong structured
prior model encodes rich information about the target space, implicitly ruling
out invalid sequences by assigning them low probability. In this work, we
propose local prior matching (LPM), a semi-supervised objective that distills
knowledge from a strong prior (e.g. a language model) to provide learning
signal to a discriminative model trained on unlabeled speech. We demonstrate
that LPM is theoretically well-motivated, simple to implement, and superior to
existing knowledge distillation techniques under comparable settings. Starting
from a baseline trained on 100 hours of labeled speech, with an additional 360
hours of unlabeled data, LPM recovers 54% and 73% of the word error rate on
clean and noisy test sets relative to a fully supervised model on the same
data.
- Abstract(参考訳): 音声認識のようなシーケンス変換タスクでは、強い構造化事前モデルが対象空間に関する豊富な情報をエンコードし、低い確率を割り当てることで暗黙的に無効なシーケンスを除外する。
本研究では,無ラベル音声で訓練された識別モデルに対して学習信号を提供するために,強い先行(言語モデルなど)からの知識を蒸留する半教師付き目標である局所事前マッチング(lpm)を提案する。
我々は,LPMが理論的に動機付けられ,実装が容易であり,既存の知識蒸留技術に比較して優れていることを示した。
100時間のラベル付き音声でトレーニングされたベースラインから始まり、360時間のラベル付きデータを追加して、同じデータ上の完全に教師付きモデルと比較して、クリーンでノイズの多いテストセットで単語エラー率の54%と73%をリカバリする。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Augmenting Automatic Speech Recognition Models with Disfluency Detection [12.45703869323415]
音声の拡散は、会話や自発的な発話でよく起こる。
現在の研究は、主に、音声の正確な位置と持続時間を見越して、書き起こし中の不一致を検出することに焦点を当てている。
我々は,任意のASRモデルを拡張し,開集合不一致を検出するための推論のみのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-16T11:13:14Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。