論文の概要: Language Independent Emotion Quantification using Non linear Modelling
of Speech
- arxiv url: http://arxiv.org/abs/2102.06003v1
- Date: Thu, 11 Feb 2021 13:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 19:07:44.298537
- Title: Language Independent Emotion Quantification using Non linear Modelling
of Speech
- Title(参考訳): 音声の非線形モデルを用いた言語独立感情定量化
- Authors: Uddalok Sarkar, Sayan Nag, Chirayata Bhattacharya, Shankha Sanyal,
Archi Banerjee, Ranjan Sengupta and Dipak Ghosh
- Abstract要約: 我々は非線形多フラクタル解析を用いて調音システムをモデル化した。
マルチフラクタルスペクトルは、感情が異なる場合の低ゆらぎ領域とよく区別できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: At present emotion extraction from speech is a very important issue due to
its diverse applications. Hence, it becomes absolutely necessary to obtain
models that take into consideration the speaking styles of a person, vocal
tract information, timbral qualities and other congenital information regarding
his voice. Our speech production system is a nonlinear system like most other
real world systems. Hence the need arises for modelling our speech information
using nonlinear techniques. In this work we have modelled our articulation
system using nonlinear multifractal analysis. The multifractal spectral width
and scaling exponents reveals essentially the complexity associated with the
speech signals taken. The multifractal spectrums are well distinguishable the
in low fluctuation region in case of different emotions. The source
characteristics have been quantified with the help of different non-linear
models like Multi-Fractal Detrended Fluctuation Analysis, Wavelet Transform
Modulus Maxima. The Results obtained from this study gives a very good result
in emotion clustering.
- Abstract(参考訳): 現在,音声からの感情抽出は多種多様であるため,非常に重要な課題である。
したがって、人の話すスタイル、声道情報、音色、および彼の声に関する他の先天的な情報を考慮してモデルを取得することは絶対に必要です。
音声生成システムは,他の実世界システムと同様,非線形システムである。
したがって、非線形手法を用いた音声情報のモデル化の必要性が生じる。
本研究では非線形多フラクタル解析を用いて調音システムをモデル化した。
マルチフラクタルスペクトル幅とスケーリング指数は、取られた音声信号に関連する複雑さを本質的に明らかにする。
マルチフラクタルスペクトルは、異なる感情の場合には低変動領域でよく区別できる。
震源特性は,多フラクタル抑止ゆらぎ解析,ウェーブレット変換変調最大値などの非線形モデルを用いて定量化されている。
この研究から得られた結果は、感情クラスタリングに非常に良い結果をもたらす。
関連論文リスト
- Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Emotion Embeddings $\unicode{x2014}$ Learning Stable and Homogeneous
Abstractions from Heterogeneous Affective Datasets [4.720033725720261]
感情の共有潜在表現を学習する訓練手順を提案する。
幅広い異種感情データセットの実験は、このアプローチが望ましい相互運用性をもたらすことを示している。
論文 参考訳(メタデータ) (2023-08-15T16:39:10Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI [9.614694312155798]
本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
論文 参考訳(メタデータ) (2021-06-16T11:20:02Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z) - Speaker Recognition in Bengali Language from Nonlinear Features [0.0]
ベンガル語音声認識と話者識別の研究は文献にはほとんどない。
本研究では,非線形多フラクタル解析を用いて音声の音響特性を抽出した。
Multifractal Detrended Fluctuation Analysisでは、音声信号の複雑さが明らかにされている。
論文 参考訳(メタデータ) (2020-04-15T22:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。