論文の概要: Deep Learning For Prominence Detection In Children's Read Speech
- arxiv url: http://arxiv.org/abs/2110.14273v1
- Date: Wed, 27 Oct 2021 08:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 00:50:01.763368
- Title: Deep Learning For Prominence Detection In Children's Read Speech
- Title(参考訳): 読み上げ音声における特徴検出のための深層学習
- Authors: Mithilesh Vaidya, Kamini Sabu, Preeti Rao
- Abstract要約: 本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
- 参考スコア(独自算出の注目度): 13.041607703862724
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The detection of perceived prominence in speech has attracted approaches
ranging from the design of linguistic knowledge-based acoustic features to the
automatic feature learning from suprasegmental attributes such as pitch and
intensity contours. We present here, in contrast, a system that operates
directly on segmented speech waveforms to learn features relevant to prominent
word detection for children's oral fluency assessment. The chosen CRNN
(convolutional recurrent neural network) framework, incorporating both
word-level features and sequence information, is found to benefit from the
perceptually motivated SincNet filters as the first convolutional layer. We
further explore the benefits of the linguistic association between the prosodic
events of phrase boundary and prominence with different multi-task
architectures. Matching the previously reported performance on the same dataset
of a random forest ensemble predictor trained on carefully chosen hand-crafted
acoustic features, we evaluate further the possibly complementary information
from hand-crafted acoustic and pre-trained lexical features.
- Abstract(参考訳): 言語知識に基づく音響特徴の設計から、ピッチや強度輪郭などの上層特性からの自動特徴学習まで、音声における知覚的特徴の検出が注目されている。
本稿では, 幼児の口臭度評価に際し, 単語検出に関連する特徴を学習するために, セグメント音声波形を直接操作するシステムについて述べる。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、最初の畳み込み層として知覚的に動機付けられたSincNetフィルタの恩恵を受ける。
さらに,語句境界の韻律的事象と,異なるマルチタスクアーキテクチャによる発音の言語的関連性についても検討する。
注意深い手作り音響特徴を訓練したランダムフォレストアンサンブル予測器の同一データセットにおける先行報告性能を一致させ,手作り音響特徴と事前学習された語彙特徴の補完的情報をさらに評価した。
関連論文リスト
- Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文 参考訳(メタデータ) (2024-07-10T07:37:18Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Deep Learning for Prominence Detection in Children's Read Speech [13.041607703862724]
子どもの読書記録のラベル付きデータセットを,話者に依存しない著名単語の検出のために検討する。
事前調整されたランダムフォレストアンサンブル予測器をRNNシーケンスに置き換え、潜在的なコンテキスト依存性を利用する。
深層学習を用いて、基本周波数、強度、スペクトル形状の低レベル音響輪郭から単語レベル特徴を得る。
論文 参考訳(メタデータ) (2021-04-12T14:15:08Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - Identification of primary and collateral tracks in stuttered speech [22.921077940732]
臨床およびNLPパースペクティブに着想を得て, 拡散検出のための新しい評価フレームワークを提案する。
本稿では, 半方向性インタビューのコーパスから, 強制整列型ディスフルエンシデータセットを提案する。
単語ベースのスパン特徴を用いることで,音声による予測のベースラインよりも優れることを示す。
論文 参考訳(メタデータ) (2020-03-02T16:50:33Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。