Fugu-MT 論文翻訳(概要): MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

論文の概要: MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

arxiv url: http://arxiv.org/abs/2308.12490v1
Date: Thu, 24 Aug 2023 01:24:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 15:43:29.231251
Title: MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario
Title（参考訳）: multipa:クローズドおよびオープン応答シナリオのためのマルチタスク音声発音評価システム
Authors: Yu-Wen Chen, Zhou Yu, Julia Hirschberg
Abstract要約: 両方のシナリオで機能する能力を持つシステムは、多様な学習ニーズを満たすことができる。マルチタスクの発音評価モデルであるMultiPAを提案する。
参考スコア（独自算出の注目度）: 30.17979366128363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The design of automatic speech pronunciation assessment can be categorized into closed and open response scenarios, each with strengths and limitations. A system with the ability to function in both scenarios can cater to diverse learning needs and provide a more precise and holistic assessment of pronunciation skills. In this study, we propose a Multi-task Pronunciation Assessment model called MultiPA. MultiPA provides an alternative to Kaldi-based systems in that it has simpler format requirements and better compatibility with other neural network models. Compared with previous open response systems, MultiPA provides a wider range of evaluations, encompassing assessments at both the sentence and word-level. Our experimental results show that MultiPA achieves comparable performance when working in closed response scenarios and maintains more robust performance when directly used for open responses.
Abstract（参考訳）: 自動発音評価の設計は、それぞれ強度と制限のある閉かつオープンな応答シナリオに分類することができる。両方のシナリオで機能する能力を持つシステムは、多様な学習ニーズに対応し、より正確で総合的な発音スキルの評価を提供する。本研究では,MultiPAと呼ばれるマルチタスク発音評価モデルを提案する。 MultiPAは、よりシンプルなフォーマット要件と、他のニューラルネットワークモデルとの互換性が向上する、Kaldiベースのシステムに代わるものだ。従来のオープン応答システムと比較して、MultiPAは文レベルと単語レベルの両方で評価を含む幅広い評価を提供する。実験の結果、MultiPAはクローズドレスポンスのシナリオで作業すると同等の性能を発揮し、オープンレスポンスで直接使用するとより堅牢な性能を維持します。

関連論文リスト

WildSpeech-Bench: Benchmarking Audio LLMs in Natural Speech Conversation [44.17470719671929]
本稿では,実用的な音声対話における音声大言語モデル(LLM)を徹底的に評価するための新しい手法を提案する。音声シナリオに関連する実世界のチャットデータを体系的にキュレートし、話者属性や音響条件の多様性を導入し、音声固有の現象でデータセットを増強する。様々な主流音声モデルの包括的テストと詳細な分析を行い、異なる音声シナリオにおけるモデル性能の顕著な差異を明らかにした。
論文参考訳（メタデータ） (2025-06-27T03:18:45Z)
Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment [25.13605642785304]
大規模マルチモーダルモデル(LMM)は、幅広い領域で例外的な性能を示している。本稿では、発音評価タスクにおけるその可能性について検討し、特に生成事前学習変換器(GPT)モデルの性能評価に焦点をあてる。
論文参考訳（メタデータ） (2025-03-14T09:26:07Z)
Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation [41.66053021998106]
アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
論文参考訳（メタデータ） (2024-10-13T11:48:09Z)
SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文参考訳（メタデータ） (2024-05-14T03:33:31Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
An Information-Theoretic Approach for Estimating Scenario Generalization in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文参考訳（メタデータ） (2022-11-02T01:39:30Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文参考訳（メタデータ） (2021-10-09T15:06:09Z)
Learning an Effective Context-Response Matching Model with Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文参考訳（メタデータ） (2020-09-14T08:44:46Z)
Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文参考訳（メタデータ） (2020-09-10T03:53:18Z)
An Empirical Investigation of Pre-Trained Transformer Language Models for Open-Domain Dialogue Generation [23.343006562849126]
本稿では,オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的に検討する。事前訓練と微調整の訓練パラダイムは、学習を行うために使用される。実験は、Weibo、Douban、Reddit、DailyDialog、Persona-Chatといった典型的なシングルターンとマルチターンの対話コーパスで行われる。
論文参考訳（メタデータ） (2020-03-09T15:20:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。