論文の概要: MultiPA: a multi-task speech pronunciation assessment system for a
closed and open response scenario
- arxiv url: http://arxiv.org/abs/2308.12490v1
- Date: Thu, 24 Aug 2023 01:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 15:43:29.231251
- Title: MultiPA: a multi-task speech pronunciation assessment system for a
closed and open response scenario
- Title(参考訳): multipa:クローズドおよびオープン応答シナリオのためのマルチタスク音声発音評価システム
- Authors: Yu-Wen Chen, Zhou Yu, Julia Hirschberg
- Abstract要約: 両方のシナリオで機能する能力を持つシステムは、多様な学習ニーズを満たすことができる。
マルチタスクの発音評価モデルであるMultiPAを提案する。
- 参考スコア(独自算出の注目度): 30.17979366128363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The design of automatic speech pronunciation assessment can be categorized
into closed and open response scenarios, each with strengths and limitations. A
system with the ability to function in both scenarios can cater to diverse
learning needs and provide a more precise and holistic assessment of
pronunciation skills. In this study, we propose a Multi-task Pronunciation
Assessment model called MultiPA. MultiPA provides an alternative to Kaldi-based
systems in that it has simpler format requirements and better compatibility
with other neural network models. Compared with previous open response systems,
MultiPA provides a wider range of evaluations, encompassing assessments at both
the sentence and word-level. Our experimental results show that MultiPA
achieves comparable performance when working in closed response scenarios and
maintains more robust performance when directly used for open responses.
- Abstract(参考訳): 自動発音評価の設計は、それぞれ強度と制限のある閉かつオープンな応答シナリオに分類することができる。
両方のシナリオで機能する能力を持つシステムは、多様な学習ニーズに対応し、より正確で総合的な発音スキルの評価を提供する。
本研究では,MultiPAと呼ばれるマルチタスク発音評価モデルを提案する。
MultiPAは、よりシンプルなフォーマット要件と、他のニューラルネットワークモデルとの互換性が向上する、Kaldiベースのシステムに代わるものだ。
従来のオープン応答システムと比較して、MultiPAは文レベルと単語レベルの両方で評価を含む幅広い評価を提供する。
実験の結果、MultiPAはクローズドレスポンスのシナリオで作業すると同等の性能を発揮し、オープンレスポンスで直接使用するとより堅牢な性能を維持します。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Multilingual Word Error Rate Estimation: e-WER3 [11.746833714322154]
本稿では,単語誤り率を推定するために,音響および語彙表現を共同で訓練した新しいフレームワークeWER3を提案する。
提案した多言語モデルは,Pearson相関係数(PCC)の絶対9%増加により,従来の単言語単語誤り率推定法(eWER2)より優れていることを示す。
論文 参考訳(メタデータ) (2023-04-02T23:08:11Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Mixtures of Deep Neural Experts for Automated Speech Scoring [11.860560781894458]
本論文は,言語学習者の音声応答からテストプロンプトに対する第二言語能力の自動評価の課題に対処する。
本手法は,(1)音声対話のテキスト書き起こしを自動生成する音声認識システム,(2)テキスト書き起こしを習熟クラスに分類する深層学習者に基づく複数分類システム,の2つの異なるモジュールに依存している。
論文 参考訳(メタデータ) (2021-06-23T15:44:50Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Do Response Selection Models Really Know What's Next? Utterance
Manipulation Strategies for Multi-turn Response Selection [11.465266718370536]
本研究では,検索に基づく対話システムにおけるユーザとシステム発話履歴の最適応答を選択するタスクについて検討する。
この問題に対処するための発話操作戦略(UMS)を提案する。
UMSは、ダイアログコヒーレンスを維持するための応答選択モデルを支援するいくつかの戦略(挿入、削除、検索)から構成される。
論文 参考訳(メタデータ) (2020-09-10T07:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。