論文の概要: The role of context in neural pitch accent detection in English
- arxiv url: http://arxiv.org/abs/2004.14846v2
- Date: Mon, 12 Oct 2020 08:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 05:27:46.826317
- Title: The role of context in neural pitch accent detection in English
- Title(参考訳): 英語におけるニューラルピッチアクセント検出における文脈の役割
- Authors: Elizabeth Nielsen, Mark Steedman, Sharon Goldwater
- Abstract要約: 本稿では,Stehwienらの研究に触発されたピッチアクセント検出の新しいモデルを提案する。
本モデルでは, フル発話を入力とし, LSTM層を付加することで, 文脈をより活用する。
これらの革新は、アメリカ英語の発音におけるピッチアクセント検出の精度を87.5%から88.7%に向上させる。
- 参考スコア(独自算出の注目度): 28.41406899452548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prosody is a rich information source in natural language, serving as a marker
for phenomena such as contrast. In order to make this information available to
downstream tasks, we need a way to detect prosodic events in speech. We propose
a new model for pitch accent detection, inspired by the work of Stehwien et al.
(2018), who presented a CNN-based model for this task. Our model makes greater
use of context by using full utterances as input and adding an LSTM layer. We
find that these innovations lead to an improvement from 87.5% to 88.7% accuracy
on pitch accent detection on American English speech in the Boston University
Radio News Corpus, a state-of-the-art result. We also find that a simple
baseline that just predicts a pitch accent on every content word yields 82.2%
accuracy, and we suggest that this is the appropriate baseline for this task.
Finally, we conduct ablation tests that show pitch is the most important
acoustic feature for this task and this corpus.
- Abstract(参考訳): 韻律は自然言語における豊かな情報源であり、コントラストなどの現象の指標となる。
この情報を下流タスクに利用可能にするためには、音声中の韻律イベントを検出する方法が必要である。
ピッチアクセント検出のための新しいモデルを提案する。stehwienら(2018年)の研究に触発され、このタスクにcnnベースのモデルを提示した。
本モデルでは, フル発話を入力とし, LSTM層を付加することで, 文脈をより活用する。
これらの技術革新により、ボストン大学ラジオニュースコーパスにおけるアメリカ英語音声のピッチアクセント検出精度は87.5%から88.7%に向上した。
また,各内容語に対してピッチアクセントを予測した単純なベースラインが82.2%の精度を達成し,このタスクに適したベースラインであることが示唆された。
最後に,この課題とコーパスにおいてピッチが最も重要な音響特徴であることを示すアブレーション試験を行う。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - NeuraGen-A Low-Resource Neural Network based approach for Gender
Classification [0.0]
ELSDSRとTIMITデータセットから収集した音声記録を用いた。
我々は、8つの音声特徴を抽出し、その特徴を前処理し、その後NeuraGenに入力し、性別を特定した。
NeuraGenは90.7407%、F1スコア91.227%、20倍のクロス検証データセットを達成している。
論文 参考訳(メタデータ) (2022-03-29T05:57:24Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。