論文の概要: Bi-APC: Bidirectional Autoregressive Predictive Coding for Unsupervised
Pre-training and Its Application to Children's ASR
- arxiv url: http://arxiv.org/abs/2102.06816v1
- Date: Fri, 12 Feb 2021 23:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:24:09.226646
- Title: Bi-APC: Bidirectional Autoregressive Predictive Coding for Unsupervised
Pre-training and Its Application to Children's ASR
- Title(参考訳): Bi-APC:教師なしプレトレーニングのための双方向自動回帰予測符号化とその子どものASRへの応用
- Authors: Ruchao Fan, Amber Afshan and Abeer Alwan
- Abstract要約: 我々は,双方向教師なしモデル事前学習 (upt) 法を提案し,児童自動音声認識 (asr) に適用する。
その後、適応技術を用いて、成人音声から学んだ知識(Librispeech corpus)を子供音声(OGI Kids corpus)に伝達します。
- 参考スコア(独自算出の注目度): 20.882686338994027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a bidirectional unsupervised model pre-training (UPT) method and
apply it to children's automatic speech recognition (ASR). An obstacle to
improving child ASR is the scarcity of child speech databases. A common
approach to alleviate this problem is model pre-training using data from adult
speech. Pre-training can be done using supervised (SPT) or unsupervised
methods, depending on the availability of annotations. Typically, SPT performs
better. In this paper, we focus on UPT to address the situations when
pre-training data are unlabeled. Autoregressive predictive coding (APC), a UPT
method, predicts frames from only one direction, limiting its use to
uni-directional pre-training. Conventional bidirectional UPT methods, however,
predict only a small portion of frames. To extend the benefits of APC to
bi-directional pre-training, Bi-APC is proposed. We then use adaptation
techniques to transfer knowledge learned from adult speech (using the
Librispeech corpus) to child speech (OGI Kids corpus). LSTM-based hybrid
systems are investigated. For the uni-LSTM structure, APC obtains similar WER
improvements to SPT over the baseline. When applied to BLSTM, however, APC is
not as competitive as SPT, but our proposed Bi-APC has comparable improvements
to SPT.
- Abstract(参考訳): 本稿では,双方向非教師なしモデル事前学習 (upt) 法を提案し,児童自動音声認識 (asr) に適用する。
子供のASRを改善するための障害は、児童音声データベースの不足です。
この問題を緩和するための一般的なアプローチは、成人音声のデータを用いたモデル事前学習である。
事前トレーニングはアノテーションの可用性に応じて、教師付き(SPT)または教師なし(unsupervised)メソッドを使って行うことができる。
通常、sptはパフォーマンスが良くなる。
本稿では,事前学習データにラベルが付けられていない状況に対処するため,UTTに着目した。
UPT法であるオートレグレッシブ予測符号化(APC)は、1方向のみからフレームを予測し、一方向事前学習に限定します。
しかし、従来の双方向upt法はフレームのごく一部しか予測しない。
APCの利点を双方向事前学習に拡張するため,Bi-APCを提案する。
その後、適応技術を用いて、成人音声から学んだ知識(Librispeech corpus)を子供音声(OGI Kids corpus)に伝達します。
LSTMに基づくハイブリッドシステムについて検討した。
ユニLSTM構造では、APCはベースライン上のSPTに類似したWER改善を得る。
しかし、BLSTMに適用した場合、APCはSPTほど競争力はないが、提案したBi-APCはSPTに匹敵する改善がある。
関連論文リスト
- AdaSent: Efficient Domain-Adapted Sentence Embeddings for Few-Shot
Classification [53.84663977283108]
事前学習文(SEs)に基づく文章分類は効率的で堅牢で効果的である。
本稿では, DAPT から SEPT を分離する AdaSent を提案する。
AdaSent は DAPT による PLM 上での完全 SEPT の性能にマッチするか、上回るが、トレーニングコストは大幅に削減される。
論文 参考訳(メタデータ) (2023-11-01T10:00:15Z) - Automatic Pair Construction for Contrastive Post-training [57.57149781848383]
本稿では,大規模言語モデル(LLM)のためのコントラストデータの自動構築手法を提案する。
SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。
また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Improving Low-Resource Speech Recognition with Pretrained Speech Models:
Continued Pretraining vs. Semi-Supervised Training [6.523198497365586]
wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。
単語誤り率 (WER) は半教師あり訓練 (SST) よりも若干優れていた。
さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-07-01T21:02:51Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Learning a Better Initialization for Soft Prompts via Meta-Learning [58.53984967461313]
本稿では,プロンプトチューニングを改善するメタPT(Meta-learned Prompt Tuning)を提案する。
まず、事前学習したデータを異なる補助タスクにクラスタリングすることで、その構造を導入する。
これらのタスクをメタ学習アルゴリズムでプロンプトの事前学習に使用する。
論文 参考訳(メタデータ) (2022-05-25T03:50:23Z) - Progressive Class Semantic Matching for Semi-supervised Text
Classification [26.794533973357403]
半教師付き学習と事前学習言語モデルとの結婚について検討する。
大規模な実験により,本手法がベースラインに顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-20T13:59:03Z) - Improving Hybrid CTC/Attention End-to-end Speech Recognition with
Pretrained Acoustic and Language Model [4.490054848527943]
本稿では,ハイブリッドCTC/アテンションE2Eモデルに基づく事前学習型トランスフォーマー(Preformer)S2S ASRアーキテクチャを提案する。
我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。
論文 参考訳(メタデータ) (2021-12-14T09:38:31Z) - Combining Unsupervised and Text Augmented Semi-Supervised Learning for
Low Resourced Autoregressive Speech Recognition [7.067186994804316]
我々は教師なしの方法で最先端のコンフォーマーモデルを事前訓練する。
追加のテキストデータは、外部言語モデルによって組み込まれている。
最終的なパフォーマンスは、半教師付きトレーニングにCTCベースのデコードを使用する場合、2%向上した絶対値である。
論文 参考訳(メタデータ) (2021-10-29T14:59:18Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。