論文の概要: MultiPA: A Multi-task Speech Pronunciation Assessment Model for Open Response Scenarios
- arxiv url: http://arxiv.org/abs/2308.12490v2
- Date: Wed, 5 Jun 2024 02:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 04:16:10.086720
- Title: MultiPA: A Multi-task Speech Pronunciation Assessment Model for Open Response Scenarios
- Title(参考訳): MultiPA:オープンレスポンスシナリオのためのマルチタスク音声発音評価モデル
- Authors: Yu-Wen Chen, Zhou Yu, Julia Hirschberg,
- Abstract要約: 発音アセスメントモデルにより、ユーザーは実生活のコミュニケーションと同様の方法で言語スキルを実践することができる。
オープン応答に対する文レベルの精度, 流布度, 韻律, 単語レベルの精度評価を提供するマルチタスク発音評価モデルであるMultiPAを提案する。
- 参考スコア(独自算出の注目度): 26.852744399985475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pronunciation assessment models designed for open response scenarios enable users to practice language skills in a manner similar to real-life communication. However, previous open-response pronunciation assessment models have predominantly focused on a single pronunciation task, such as sentence-level accuracy, rather than offering a comprehensive assessment in various aspects. We propose MultiPA, a Multitask Pronunciation Assessment model that provides sentence-level accuracy, fluency, prosody, and word-level accuracy assessment for open responses. We examined the correlation between different pronunciation tasks and showed the benefits of multi-task learning. Our model reached the state-of-the-art performance on existing in-domain data sets and effectively generalized to an out-of-domain dataset that we newly collected. The experimental results demonstrate the practical utility of our model in real-world applications.
- Abstract(参考訳): オープンレスポンスシナリオ用に設計された発音アセスメントモデルにより、ユーザーは実生活におけるコミュニケーションと同様の方法で言語スキルを実践することができる。
しかし、従来のオープンレスポンスの発音評価モデルは、様々な面で総合的な評価を提供するのではなく、文レベルの精度などの単一の発音タスクに主に焦点を当てている。
オープン応答に対する文レベルの精度, 流布度, 韻律, 単語レベルの精度評価を提供するマルチタスク発音評価モデルであるMultiPAを提案する。
異なる発音課題間の相関について検討し,マルチタスク学習の利点を示した。
我々のモデルは、既存のドメイン内データセットの最先端のパフォーマンスに達し、新たに収集したドメイン外データセットに効果的に一般化した。
実世界の応用において,本モデルの実用性を示す実験結果が得られた。
関連論文リスト
- Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation [41.66053021998106]
アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。
このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。
我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-13T11:48:09Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - An Information-Theoretic Approach for Estimating Scenario Generalization
in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。
インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。
提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文 参考訳(メタデータ) (2022-11-02T01:39:30Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - An Empirical Investigation of Pre-Trained Transformer Language Models
for Open-Domain Dialogue Generation [23.343006562849126]
本稿では,オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的に検討する。
事前訓練と微調整の訓練パラダイムは、学習を行うために使用される。
実験は、Weibo、Douban、Reddit、DailyDialog、Persona-Chatといった典型的なシングルターンとマルチターンの対話コーパスで行われる。
論文 参考訳(メタデータ) (2020-03-09T15:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。