論文の概要: Semi-Supervised Speech Recognition via Local Prior Matching
- arxiv url: http://arxiv.org/abs/2002.10336v1
- Date: Mon, 24 Feb 2020 16:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:18:39.289679
- Title: Semi-Supervised Speech Recognition via Local Prior Matching
- Title(参考訳): 局所事前マッチングによる半教師付き音声認識
- Authors: Wei-Ning Hsu, Ann Lee, Gabriel Synnaeve, Awni Hannun
- Abstract要約: 局所的な事前マッチングは、強い事前から知識を蒸留する半教師付き目的である。
我々は,LPMが理論的に良好であり,実装が容易であり,既存の知識蒸留技術よりも優れていることを実証した。
- 参考スコア(独自算出の注目度): 42.311823406287864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For sequence transduction tasks like speech recognition, a strong structured
prior model encodes rich information about the target space, implicitly ruling
out invalid sequences by assigning them low probability. In this work, we
propose local prior matching (LPM), a semi-supervised objective that distills
knowledge from a strong prior (e.g. a language model) to provide learning
signal to a discriminative model trained on unlabeled speech. We demonstrate
that LPM is theoretically well-motivated, simple to implement, and superior to
existing knowledge distillation techniques under comparable settings. Starting
from a baseline trained on 100 hours of labeled speech, with an additional 360
hours of unlabeled data, LPM recovers 54% and 73% of the word error rate on
clean and noisy test sets relative to a fully supervised model on the same
data.
- Abstract(参考訳): 音声認識のようなシーケンス変換タスクでは、強い構造化事前モデルが対象空間に関する豊富な情報をエンコードし、低い確率を割り当てることで暗黙的に無効なシーケンスを除外する。
本研究では,無ラベル音声で訓練された識別モデルに対して学習信号を提供するために,強い先行(言語モデルなど)からの知識を蒸留する半教師付き目標である局所事前マッチング(lpm)を提案する。
我々は,LPMが理論的に動機付けられ,実装が容易であり,既存の知識蒸留技術に比較して優れていることを示した。
100時間のラベル付き音声でトレーニングされたベースラインから始まり、360時間のラベル付きデータを追加して、同じデータ上の完全に教師付きモデルと比較して、クリーンでノイズの多いテストセットで単語エラー率の54%と73%をリカバリする。
関連論文リスト
- Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models [13.456066434598155]
我々は、特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
論文 参考訳(メタデータ) (2022-03-30T01:27:39Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。