論文の概要: Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring
- arxiv url: http://arxiv.org/abs/2109.00928v1
- Date: Mon, 30 Aug 2021 07:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 12:52:14.463457
- Title: Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring
- Title(参考訳): 自動音声スコアリングのための話者条件階層モデル
- Authors: Yaman Kumar Singla, Avykat Gupta, Shaurya Bagga, Changyou Chen, Balaji
Krishnamurthy, Rajiv Ratn Shah
- Abstract要約: 本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
- 参考スコア(独自算出の注目度): 60.55025339250815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Scoring (ASS) is the computer-assisted evaluation of a
candidate's speaking proficiency in a language. ASS systems face many
challenges like open grammar, variable pronunciations, and unstructured or
semi-structured content. Recent deep learning approaches have shown some
promise in this domain. However, most of these approaches focus on extracting
features from a single audio, making them suffer from the lack of
speaker-specific context required to model such a complex task. We propose a
novel deep learning technique for non-native ASS, called speaker-conditioned
hierarchical modeling. In our technique, we take advantage of the fact that
oral proficiency tests rate multiple responses for a candidate. We extract
context vectors from these responses and feed them as additional
speaker-specific context to our network to score a particular response. We
compare our technique with strong baselines and find that such modeling
improves the model's average performance by 6.92% (maximum = 12.86%, minimum =
4.51%). We further show both quantitative and qualitative insights into the
importance of this additional context in solving the problem of ASS.
- Abstract(参考訳): 自動発声スコアリング(automatic speech scoring、ass)は、言語における候補の発話能力の評価をコンピュータで支援する手法である。
ASSシステムは、オープン文法、可変発音、非構造化または半構造化コンテンツなど、多くの課題に直面している。
最近のディープラーニングアプローチは、この領域でいくつかの約束を示している。
しかし、これらのアプローチのほとんどは単一の音声から特徴を抽出することに集中しており、そのような複雑なタスクをモデル化するために必要な話者固有のコンテキストが欠如している。
本稿では,非ネイティブasのための新しいディープラーニング手法である話者条件階層モデリングを提案する。
提案手法では, 口腔習熟度試験が候補に対して複数の反応を評価できるという利点を生かした。
これらの応答からコンテキストベクトルを抽出し、ネットワークに追加の話者固有のコンテキストとして与えて、特定の応答をスコアします。
このようなモデリングによってモデルの平均性能が6.92%向上する(最大は12.86%、最小は4.51%)。
さらに、ASSの問題を解決する上で、この追加の文脈の重要性に関する量的および質的な洞察を示す。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - SpeechCaps: Advancing Instruction-Based Universal Speech Models with Multi-Talker Speaking Style Captioning [43.71388370559826]
本稿では,話者と韻律情報の理解を高めるために,複数話者の発話スタイルのキャプションタスクを提案する。
大規模言語モデルを用いて、多話者音声の記述を生成する。
このキャプションタスクで事前学習を行い,指導訓練を行った。
論文 参考訳(メタデータ) (2024-08-25T17:05:26Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - Automatic Evaluation of Speaker Similarity [0.0]
本研究では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
実験の結果, 話者埋め込みから話者類似度MUSHRAスコアを0.96精度で予測し, 発話レベルでは0.78ピアソンスコアまで有意な相関関係を示すことができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T11:23:16Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Speaker-Aware BERT for Multi-Turn Response Selection in Retrieval-Based
Chatbots [47.40380290055558]
話者変化情報を認識させる新しいモデルとして,話者認識BERT (SA-BERT) を提案する。
絡み合った対話に対処するために,話者認識型アンタングル化戦略を提案する。
論文 参考訳(メタデータ) (2020-04-07T02:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。