論文の概要: Improving pronunciation assessment via ordinal regression with anchored
reference samples
- arxiv url: http://arxiv.org/abs/2010.13339v1
- Date: Mon, 26 Oct 2020 04:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:26:33.724093
- Title: Improving pronunciation assessment via ordinal regression with anchored
reference samples
- Title(参考訳): アンカー参照サンプルを用いた順序回帰による発音評価の改善
- Authors: Bin Su, Shaoguang Mao, Frank Soong, Yan Xia, Jonathan Tien and Zhiyong
Wu
- Abstract要約: 平均GOP(aGOP)と混乱GOP(cGOP)の2つの統計的特徴を提案する。
従来のGOP法を用いて, ピアソン相関係数の26.9%を相対的に改善した。
- 参考スコア(独自算出の注目度): 13.504454405194855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence level pronunciation assessment is important for Computer Assisted
Language Learning (CALL). Traditional speech pronunciation assessment, based on
the Goodness of Pronunciation (GOP) algorithm, has some weakness in assessing a
speech utterance: 1) Phoneme GOP scores cannot be easily translated into a
sentence score with a simple average for effective assessment; 2) The rank
ordering information has not been well exploited in GOP scoring for delivering
a robust assessment and correlate well with a human rater's evaluations. In
this paper, we propose two new statistical features, average GOP (aGOP) and
confusion GOP (cGOP) and use them to train a binary classifier in Ordinal
Regression with Anchored Reference Samples (ORARS). When the proposed approach
is tested on Microsoft mTutor ESL Dataset, a relative improvement of Pearson
correlation coefficient of 26.9% is obtained over the conventional GOP-based
one. The performance is at a human-parity level or better than human raters.
- Abstract(参考訳): 文レベルの発音評価はコンピュータ支援言語学習(CALL)において重要である。
従来の発音評価は、gop(goodness of pronunciation)アルゴリズムに基づいており、音声発話の評価にいくつかの弱点がある。
1) 音素gopスコアは,有効評価のための単純な平均値で容易に文スコアに翻訳できない。
2) ランクの順序付け情報は, 適度な評価を行い, 人格評価とよく関連づけるために, gopスコアにはあまり活用されていない。
本稿では,平均 GOP (aGOP) と混乱 GOP (cGOP) の2つの新しい統計特徴について提案し,それを用いて正規回帰(Ordinal Regression with Anchored Reference Samples (ORARS))のバイナリ分類器を訓練する。
提案手法をMicrosoft mTutor ESL データセットで検証すると,従来の GOP モデルに比べてピアソン相関係数が26.9%向上した。
パフォーマンスは人間レベルか、人間のレーダよりも優れています。
関連論文リスト
- Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - Speech Intelligibility Assessment of Dysarthric Speech by using Goodness
of Pronunciation with Uncertainty Quantification [4.947423926765435]
本稿では,不確実性定量化(UQ)を利用した変形性音声の自動明瞭度評価のための改良されたGoP(Goodness of Pronunciation)を提案する。
この問題を軽減するため, 1) 音素予測(エントロピー, マージン, マージン, マージン) の正規化, 2) スコアリング関数の変更によるGoP上でのUQ手法を用いた。
その結果、事前正規化マックスロジットのGoPは、英語のベースラインのGoPと比較して5.66%、3.91%、23.65%増加し、最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-28T11:48:36Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - SpeechLMScore: Evaluating speech generation using speech language model [43.20067175503602]
本稿では,音声認識モデルを用いて生成した音声を評価するための教師なしメトリックであるSpeechLMScoreを提案する。
人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークです。
評価結果は,提案手法が音声生成タスクにおける評価スコアと有望な相関を示すことを示す。
論文 参考訳(メタデータ) (2022-12-08T21:00:15Z) - TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and
Punctuation model evaluation and selection [1.4720080476520687]
自動音声認識における読みやすさの鍵は、触覚と可読性である。
人間の評価は高価で時間がかかり、サーバ間の大きな変動に悩まされる。
本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。
論文 参考訳(メタデータ) (2022-10-27T01:11:32Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。