論文の概要: Data-driven Detection and Analysis of the Patterns of Creaky Voice
- arxiv url: http://arxiv.org/abs/2006.00518v1
- Date: Sun, 31 May 2020 13:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:57:49.817740
- Title: Data-driven Detection and Analysis of the Patterns of Creaky Voice
- Title(参考訳): データ駆動によるき裂音声のパターンの検出と分析
- Authors: Thomas Drugman, John Kane, Christer Gobl
- Abstract要約: クレーキー音声はフレーズ境界マーカーとしてよく使われる品質である。
難解な音声の自動検出とモデリングは、音声技術への応用に影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 13.829936505895692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the temporal excitation patterns of creaky voice.
Creaky voice is a voice quality frequently used as a phrase-boundary marker,
but also as a means of portraying attitude, affective states and even social
status. Consequently, the automatic detection and modelling of creaky voice may
have implications for speech technology applications. The acoustic
characteristics of creaky voice are, however, rather distinct from modal
phonation. Further, several acoustic patterns can bring about the perception of
creaky voice, thereby complicating the strategies used for its automatic
detection, analysis and modelling. The present study is carried out using a
variety of languages, speakers, and on both read and conversational data and
involves a mutual information-based assessment of the various acoustic features
proposed in the literature for detecting creaky voice. These features are then
exploited in classification experiments where we achieve an appreciable
improvement in detection accuracy compared to the state of the art. Both
experiments clearly highlight the presence of several creaky patterns. A
subsequent qualitative and quantitative analysis of the identified patterns is
provided, which reveals a considerable speaker-dependent variability in the
usage of these creaky patterns. We also investigate how creaky voice detection
systems perform across creaky patterns.
- Abstract(参考訳): 本稿では,難聴音声の時間的励起パターンについて検討する。
クレーキーな声は、フレーズ境界標識としてよく使われる声質であるが、態度、感情的状態、さらには社会的地位を表現する手段としても用いられる。
その結果, 難聴音声の自動検出とモデリングは, 音声技術への応用に影響を及ぼす可能性がある。
しかし、クレーキー音声の音響特性は、モーダル発声とはかなり異なる。
さらに、いくつかの音響パターンは、難聴音声の知覚をもたらし、その自動検出、分析、モデリングに使用される戦略を複雑化する。
本研究は,様々な言語,話者,および読解データと会話データの両方を用いて,クレーキー音声の検出のために文献で提案されている各種音響特徴の相互情報に基づく評価を行う。
これらの特徴を分類実験で利用し, 検出精度を技術状況と比較して高い精度で向上させる。
どちらの実験も、いくつかのクレーキーパターンの存在を明確に示している。
続いて同定されたパターンの質的および定量的な分析を行い、これらのパターンの使用における話者依存性のかなりの変動を明らかにする。
また,難解な音声検出システムが,難解なパターン間でどのように機能するかについても検討する。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - A Novel Labeled Human Voice Signal Dataset for Misbehavior Detection [0.7223352886780369]
本研究は,音声認識のための自動学習システムにおける音声トーンと配信の重要性を強調した。
これは、人間の行動が音声信号の知覚と分類に与える影響を解明することにより、音声信号解析の幅広い分野に寄与する。
論文 参考訳(メタデータ) (2024-06-28T18:55:07Z) - Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文 参考訳(メタデータ) (2024-06-14T20:07:21Z) - Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。
この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文 参考訳(メタデータ) (2024-04-25T12:03:14Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Speaker Recognition in Bengali Language from Nonlinear Features [0.0]
ベンガル語音声認識と話者識別の研究は文献にはほとんどない。
本研究では,非線形多フラクタル解析を用いて音声の音響特性を抽出した。
Multifractal Detrended Fluctuation Analysisでは、音声信号の複雑さが明らかにされている。
論文 参考訳(メタデータ) (2020-04-15T22:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。