Fugu-MT 論文翻訳(概要): Towards Representative Subset Selection for Self-Supervised Speech Recognition

論文の概要: Towards Representative Subset Selection for Self-Supervised Speech Recognition

arxiv url: http://arxiv.org/abs/2203.09829v1
Date: Fri, 18 Mar 2022 10:12:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-21 22:50:57.186480
Title: Towards Representative Subset Selection for Self-Supervised Speech Recognition
Title（参考訳）: 自己教師付き音声認識のための代表サブセット選択に向けて
Authors: Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza
Abstract要約: 学習データの最適部分集合をASRのための微調整自己教師型音声モデルに同定する作業について検討する。我々は,学習の難易度を抽出する能動的学習戦略が,ランダムなサブセット選択よりも優れているという驚くべき観察を行う。自己教師型ASRにおいて,より優れたサブセット選択のためのCOWERAGEアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 6.450618373898492
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised speech recognition models require considerable labeled training data for learning high-fidelity representations for Automatic Speech Recognition (ASR), which hinders their application to low-resource languages. We consider the task of identifying an optimal subset of training data to fine-tune self-supervised speech models for ASR. We make a surprising observation that active learning strategies for sampling harder-to-learn examples do not perform better than random subset selection for fine-tuning self-supervised ASR. We then present the COWERAGE algorithm for better subset selection in self-supervised ASR which is based on our finding that ensuring the coverage of examples based on training WER in the early training epochs leads to better generalization performance. Extensive experiments on the wav2vec 2.0 model and TIMIT dataset show the effectiveness of COWERAGE, with up to 27% absolute WER improvement over active learning methods. We also report the connection between training WER and the phonemic cover and demonstrate that our algorithm ensures inclusion of phonemically diverse examples.
Abstract（参考訳）: 自己教師付き音声認識モデルは、自動音声認識(asr)のための高忠実度表現を学習するために、かなりのラベル付きトレーニングデータを必要とする。学習データの最適部分集合をASRのための微調整自己教師型音声モデルに同定する作業を検討する。我々は,学習の難しいサンプルを抽出する能動的学習戦略が,微調整型自己教師型AIRのランダムなサブセット選択よりも優れているという驚くべき観察を行う。次に、自己教師付きASRにおけるサブセット選択を改善するためのCOWERAGEアルゴリズムを提案する。 wav2vec 2.0モデルとtimitデータセットの広範な実験により、カウラージュの有効性が示され、アクティブな学習方法よりも最大27%の絶対werが改善されている。また,WERの学習と音韻表紙の関連性を報告し,本アルゴリズムが音韻学的に多様であることを示す。

関連論文リスト

Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文参考訳（メタデータ） (2025-05-26T03:54:47Z)
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。 3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文参考訳（メタデータ） (2024-11-04T16:46:53Z)
Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文参考訳（メタデータ） (2024-10-21T03:48:23Z)
Efficient data selection employing Semantic Similarity-based Graph Structures for model training [1.5845679507219355]
本稿では,SeSaME(Semantics for Data SAliency in Model Performance Estimation)を紹介する。これはテキスト情報のみに基づく効率的なデータサンプリング機構であり、計算量の多いモデルにデータを渡すことなく利用できる。このアプローチの適用例は、低リソース自動音声認識(ASR)モデルの使用例で示される。
論文参考訳（メタデータ） (2024-02-22T09:43:53Z)
Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文参考訳（メタデータ） (2023-03-17T01:26:39Z)
Unsupervised Fine-Tuning Data Selection for ASR Using Self-Supervised Speech Models [13.956691231452336]
自己教師付き学習(SSL)は、ラベルのないデータを利用して自動音声認識(ASR)モデルの性能を向上させることができる。本研究は,限られた転写予算の下でHuBERTモデルを微調整するための,教師なしデータ選択手法について検討する。
論文参考訳（メタデータ） (2022-12-03T18:05:08Z)
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文参考訳（メタデータ） (2022-04-05T07:02:53Z)
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (2022-03-27T06:38:39Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文参考訳（メタデータ） (2021-10-09T15:06:09Z)
Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文参考訳（メタデータ） (2020-12-13T23:23:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。