論文の概要: The complementary roles of non-verbal cues for Robust Pronunciation
Assessment
- arxiv url: http://arxiv.org/abs/2309.07739v1
- Date: Thu, 14 Sep 2023 14:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 12:54:21.984415
- Title: The complementary roles of non-verbal cues for Robust Pronunciation
Assessment
- Title(参考訳): ロバスト発音評価における非言語的手がかりの相補的役割
- Authors: Yassine El Kheir, Shammur Absar Chowdhury, Ahmed Ali
- Abstract要約: 発音評価システムの研究は、非ネイティブ(L2)音声の音韻的・音声学的側面の活用に焦点を当てている。
本研究では,新しい発音評価フレームワークであるIntraVerbalPAを提案する。
- 参考スコア(独自算出の注目度): 10.15106073866792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on pronunciation assessment systems focuses on utilizing phonetic
and phonological aspects of non-native (L2) speech, often neglecting the rich
layer of information hidden within the non-verbal cues. In this study, we
proposed a novel pronunciation assessment framework, IntraVerbalPA. % The
framework innovatively incorporates both fine-grained frame- and abstract
utterance-level non-verbal cues, alongside the conventional speech and phoneme
representations. Additionally, we introduce ''Goodness of phonemic-duration''
metric to effectively model duration distribution within the framework. Our
results validate the effectiveness of the proposed IntraVerbalPA framework and
its individual components, yielding performance that either matches or
outperforms existing research works.
- Abstract(参考訳): 発音評価システムの研究は、非母語(L2)音声の音韻的・音声学的側面の活用に重点を置いており、しばしば非言語的手がかりに隠れた情報層を無視する。
本研究では,新しい発音評価フレームワークであるIntraVerbalPAを提案する。
このフレームワークは,従来の音声および音素表現とともに,きめ細かなフレームレベルと抽象的な発話レベルの非言語的手がかりの両方を革新的に取り入れている。
さらに,フレームワーク内の持続時間分布を効果的にモデル化するために,「音韻デュレーションの良さ」指標を導入する。
提案するIntraVerbalPAフレームワークとその個々のコンポーネントの有効性を検証し,既存の研究成果に適合または優れる性能を得た。
関連論文リスト
- Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Transfer the linguistic representations from TTS to accent conversion
with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。
本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-07T16:39:34Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z) - Temporarily-Aware Context Modelling using Generative Adversarial
Networks for Speech Activity Detection [43.662221486962274]
音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。
我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。
NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-04-02T02:33:13Z) - Identification of primary and collateral tracks in stuttered speech [22.921077940732]
臨床およびNLPパースペクティブに着想を得て, 拡散検出のための新しい評価フレームワークを提案する。
本稿では, 半方向性インタビューのコーパスから, 強制整列型ディスフルエンシデータセットを提案する。
単語ベースのスパン特徴を用いることで,音声による予測のベースラインよりも優れることを示す。
論文 参考訳(メタデータ) (2020-03-02T16:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。