論文の概要: Data-driven Detection and Analysis of the Patterns of Creaky Voice
- arxiv url: http://arxiv.org/abs/2006.00518v1
- Date: Sun, 31 May 2020 13:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:57:49.817740
- Title: Data-driven Detection and Analysis of the Patterns of Creaky Voice
- Title(参考訳): データ駆動によるき裂音声のパターンの検出と分析
- Authors: Thomas Drugman, John Kane, Christer Gobl
- Abstract要約: クレーキー音声はフレーズ境界マーカーとしてよく使われる品質である。
難解な音声の自動検出とモデリングは、音声技術への応用に影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 13.829936505895692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the temporal excitation patterns of creaky voice.
Creaky voice is a voice quality frequently used as a phrase-boundary marker,
but also as a means of portraying attitude, affective states and even social
status. Consequently, the automatic detection and modelling of creaky voice may
have implications for speech technology applications. The acoustic
characteristics of creaky voice are, however, rather distinct from modal
phonation. Further, several acoustic patterns can bring about the perception of
creaky voice, thereby complicating the strategies used for its automatic
detection, analysis and modelling. The present study is carried out using a
variety of languages, speakers, and on both read and conversational data and
involves a mutual information-based assessment of the various acoustic features
proposed in the literature for detecting creaky voice. These features are then
exploited in classification experiments where we achieve an appreciable
improvement in detection accuracy compared to the state of the art. Both
experiments clearly highlight the presence of several creaky patterns. A
subsequent qualitative and quantitative analysis of the identified patterns is
provided, which reveals a considerable speaker-dependent variability in the
usage of these creaky patterns. We also investigate how creaky voice detection
systems perform across creaky patterns.
- Abstract(参考訳): 本稿では,難聴音声の時間的励起パターンについて検討する。
クレーキーな声は、フレーズ境界標識としてよく使われる声質であるが、態度、感情的状態、さらには社会的地位を表現する手段としても用いられる。
その結果, 難聴音声の自動検出とモデリングは, 音声技術への応用に影響を及ぼす可能性がある。
しかし、クレーキー音声の音響特性は、モーダル発声とはかなり異なる。
さらに、いくつかの音響パターンは、難聴音声の知覚をもたらし、その自動検出、分析、モデリングに使用される戦略を複雑化する。
本研究は,様々な言語,話者,および読解データと会話データの両方を用いて,クレーキー音声の検出のために文献で提案されている各種音響特徴の相互情報に基づく評価を行う。
これらの特徴を分類実験で利用し, 検出精度を技術状況と比較して高い精度で向上させる。
どちらの実験も、いくつかのクレーキーパターンの存在を明確に示している。
続いて同定されたパターンの質的および定量的な分析を行い、これらのパターンの使用における話者依存性のかなりの変動を明らかにする。
また,難解な音声検出システムが,難解なパターン間でどのように機能するかについても検討する。
関連論文リスト
- Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - Sources of Noise in Dialogue and How to Deal with Them [63.02707014103651]
トレーニング対話システムは、ノイズの多いトレーニング例や予期しないユーザ入力を扱うことが多い。
その頻度にもかかわらず、現在、対話ノイズの正確な調査が欠けている。
本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。
論文 参考訳(メタデータ) (2022-12-06T04:36:32Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Self-supervised speech unit discovery from articulatory and acoustic
features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。
我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。
実験は英語とフランス語の3つの異なるコーパスで行われた。
論文 参考訳(メタデータ) (2022-06-17T14:04:24Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Speaker Recognition in Bengali Language from Nonlinear Features [0.0]
ベンガル語音声認識と話者識別の研究は文献にはほとんどない。
本研究では,非線形多フラクタル解析を用いて音声の音響特性を抽出した。
Multifractal Detrended Fluctuation Analysisでは、音声信号の複雑さが明らかにされている。
論文 参考訳(メタデータ) (2020-04-15T22:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。