論文の概要: End-to-End Word-Level Pronunciation Assessment with MASK Pre-training
- arxiv url: http://arxiv.org/abs/2306.02682v1
- Date: Mon, 5 Jun 2023 08:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 16:09:18.190332
- Title: End-to-End Word-Level Pronunciation Assessment with MASK Pre-training
- Title(参考訳): MASK事前学習によるエンド・ツー・エンド単語発音評価
- Authors: Yukang Liang, Kaitao Song, Shaoguang Mao, Huiqiang Jiang, Luna Qiu,
Yuqing Yang, Dongsheng Li, Linli Xu, Lili Qiu
- Abstract要約: 本稿では, アンダーライン・アンダーライン・アンダーライン・アセスメント (MPA) に対するアンダーライン・マスキード事前訓練法を提案する。
MPAは整合性のあるコンポーネントを使わずにエンドツーエンドのトレーニングをサポートし、予測時にミスアライメントの問題を大幅に解決できる。
SpeechOcean762データセットの実験結果は、MPAが明示的なアライメントを伴わずに、以前の方法よりも優れたパフォーマンスを実現することを示した。
- 参考スコア(独自算出の注目度): 28.01614106625894
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pronunciation assessment is a major challenge in the computer-aided
pronunciation training system, especially at the word (phoneme)-level. To
obtain word (phoneme)-level scores, current methods usually rely on aligning
components to obtain acoustic features of each word (phoneme), which limits the
performance of assessment to the accuracy of alignments. Therefore, to address
this problem, we propose a simple yet effective method, namely
\underline{M}asked pre-training for \underline{P}ronunciation
\underline{A}ssessment (MPA). Specifically, by incorporating a mask-predict
strategy, our MPA supports end-to-end training without leveraging any aligning
components and can solve misalignment issues to a large extent during
prediction. Furthermore, we design two evaluation strategies to enable our
model to conduct assessments in both unsupervised and supervised settings.
Experimental results on SpeechOcean762 dataset demonstrate that MPA could
achieve better performance than previous methods, without any explicit
alignment. In spite of this, MPA still has some limitations, such as requiring
more inference time and reference text. They expect to be addressed in future
work.
- Abstract(参考訳): 発音評価は、コンピュータ支援の発音訓練システムにおいて、特に単語(音素)レベルで大きな課題である。
単語(音素)レベルのスコアを得るために、現在の手法では、各単語(音素)の音響的特徴を得るために、アライメントの精度に評価の性能を制限するために、アライメント成分に依存することが多い。
そこで本研究では,この問題に対処するために, 単純かつ効果的な手法,すなわち, underline{m}asked pre-training for \underline{p}ronunciation \underline{a}ssessment (mpa)を提案する。
具体的には,マスク予測戦略を取り入れることで,整合性コンポーネントを活用せずにエンドツーエンドのトレーニングを支援し,予測時に誤調整問題を広範囲に解決する。
さらに,モデルが教師なしと教師なしの両方の設定で評価を行うことができるように,評価戦略を2つ設計した。
SpeechOcean762データセットの実験結果は、MPAが明示的なアライメントを伴わずに、以前の方法よりも優れたパフォーマンスを実現できることを示した。
それにもかかわらず、MPAには推論時間や参照テキストなど、いくつかの制限がある。
彼らは将来の仕事で対処されることを期待している。
関連論文リスト
- TapWeight: Reweighting Pretraining Objectives for Task-Adaptive Pretraining [34.93043212352875]
TapWeightはタスク適応型事前学習フレームワークで、各事前学習対象の最適な重要性を自動的に決定する。
我々はTapWeightを分子特性予測と自然言語理解タスクの両方に適用し,ベースライン法をはるかに上回った。
論文 参考訳(メタデータ) (2024-10-13T20:56:13Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Don't Stop Pretraining? Make Prompt-based Fine-tuning Powerful Learner [14.975436239088312]
我々は,NLPの事前学習が下流タスクにおけるファインチューニング(FT)の性能を向上させるという概念を再考する。
本稿では,Promptベースの継続事前学習(PCP)を提案する。
21のベンチマークによる実証評価の結果,PCP は最先端のプロンプトベースのFT アプローチの性能を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-05-02T18:25:30Z) - Understanding and Mitigating Overfitting in Prompt Tuning for
Vision-Language Models [108.13378788663196]
本稿では, トレーニング過程全体において, 低ランク部分空間にバックプロパゲーションの勾配を投影するSubspace Prompt Tuning(SubPT)を提案する。
我々はCoOpにノベル・ラーナー・フィーチャー(NFL)を装備し、学習したプロンプトをトレーニングセット以外の新しいカテゴリに一般化する能力を高める。
論文 参考訳(メタデータ) (2022-11-04T02:06:22Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - Predict, Prevent, and Evaluate: Disentangled Text-Driven Image
Manipulation Empowered by Pre-Trained Vision-Language Model [168.04947140367258]
本稿では,テキスト駆動型画像操作のための新しいフレームワーク,すなわち予測,予防,評価(PPE)を提案する。
提案手法は,大規模事前学習型視覚言語モデルCLIPのパワーを利用して,ターゲットにアプローチする。
大規模な実験により,提案したPEPフレームワークは,最新のStyleCLIPベースラインよりもはるかに定量的かつ定性的な結果が得られることが示された。
論文 参考訳(メタデータ) (2021-11-26T06:49:26Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。