論文の概要: Iterative Pseudo-Labeling for Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.09267v2
- Date: Thu, 27 Aug 2020 01:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:25:24.020366
- Title: Iterative Pseudo-Labeling for Speech Recognition
- Title(参考訳): 音声認識のための反復擬似ラベル
- Authors: Qiantong Xu, Tatiana Likhomanenko, Jacob Kahn, Awni Hannun, Gabriel
Synnaeve, Ronan Collobert
- Abstract要約: Pseudo-labelingは、最近、エンドツーエンド自動音声認識(ASR)において有望であることを示す。
非ラベルデータに対して擬似ラベルの繰り返しを効率的に行う半教師付きアルゴリズムであるIterative Pseudo-Labeling (IPL)について検討する。
- 参考スコア(独自算出の注目度): 35.48685001317295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pseudo-labeling has recently shown promise in end-to-end automatic speech
recognition (ASR). We study Iterative Pseudo-Labeling (IPL), a semi-supervised
algorithm which efficiently performs multiple iterations of pseudo-labeling on
unlabeled data as the acoustic model evolves. In particular, IPL fine-tunes an
existing model at each iteration using both labeled data and a subset of
unlabeled data. We study the main components of IPL: decoding with a language
model and data augmentation. We then demonstrate the effectiveness of IPL by
achieving state-of-the-art word-error rate on the Librispeech test sets in both
standard and low-resource setting. We also study the effect of language models
trained on different corpora to show IPL can effectively utilize additional
text. Finally, we release a new large in-domain text corpus which does not
overlap with the Librispeech training transcriptions to foster research in
low-resource, semi-supervised ASR
- Abstract(参考訳): Pseudo-labelingは、最近、エンドツーエンド自動音声認識(ASR)において有望であることを示す。
音響モデルの発展に伴い, 擬似ラベル処理を複数繰り返し行う半教師付きアルゴリズムであるIterative Pseudo-Labeling (IPL) について検討した。
特に、IPLはラベル付きデータとラベルなしデータのサブセットを使用して、各イテレーションで既存のモデルを微調整する。
IPLの主なコンポーネントは、言語モデルによるデコードとデータ拡張である。
次に、標準および低リソース設定のlibrispeechテストセットで最先端の単語誤り率を達成することで、iplの有効性を実証する。
また、異なるコーパス上で学習した言語モデルの効果について検討し、IPLがテキストを効果的に活用できることを示す。
最後に、低リソース半教師付きASRの研究を促進するために、Librispeechトレーニング転写と重複しない新しい大きなドメイン内テキストコーパスをリリースする。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Towards hate speech detection in low-resource languages: Comparing ASR
to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。
1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。
音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文 参考訳(メタデータ) (2023-06-01T07:25:10Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR [10.261890123213622]
自動音声認識(ASR)のためのオンザフライデータ拡張手法を提案する。
ASRのAligned Data Augmentation(ADA)と呼ばれる私たちのメソッドは、トランスクリプトされたトークンと音声表現を整列した方法で置き換えて、トレーニングペアを生成します。
論文 参考訳(メタデータ) (2021-04-03T13:00:00Z) - SlimIPL: Language-Model-Free Iterative Pseudo-Labeling [32.39921686482643]
Iterative Pseudo-Labeling (IPL) は、モデルが学習するにつれて、擬似ラベルを使って連続的に1つのモデルをトレーニングする。
我々は、このアプローチをLanguage-Model-Free IPL (slimIPL)と呼び、CTCベースのモデルによる低リソース設定のためのトレーニングセットを提供する。
論文 参考訳(メタデータ) (2020-10-22T08:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。