論文の概要: Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals
- arxiv url: http://arxiv.org/abs/2203.05780v1
- Date: Fri, 11 Mar 2022 07:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:15:58.789380
- Title: Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals
- Title(参考訳): 音声信号の多分解スペクトル-時間表現を用いた音響・調音音声インバージョン
- Authors: Rahil Parikh, Nadee Seneviratne, Ganesh Sivaraman, Shihab Shamma,
Carol Espy-Wilson
- Abstract要約: フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
- 参考スコア(独自算出の注目度): 5.743287315640403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-resolution spectro-temporal features of a speech signal represent how
the brain perceives sounds by tuning cortical cells to different spectral and
temporal modulations. These features produce a higher dimensional
representation of the speech signals. The purpose of this paper is to evaluate
how well the auditory cortex representation of speech signals contribute to
estimate articulatory features of those corresponding signals. Since obtaining
articulatory features from acoustic features of speech signals has been a
challenging topic of interest for different speech communities, we investigate
the possibility of using this multi-resolution representation of speech signals
as acoustic features. We used U. of Wisconsin X-ray Microbeam (XRMB) database
of clean speech signals to train a feed-forward deep neural network (DNN) to
estimate articulatory trajectories of six tract variables. The optimal set of
multi-resolution spectro-temporal features to train the model were chosen using
appropriate scale and rate vector parameters to obtain the best performing
model. Experiments achieved a correlation of 0.675 with ground-truth tract
variables. We compared the performance of this speech inversion system with
prior experiments conducted using Mel Frequency Cepstral Coefficients (MFCCs).
- Abstract(参考訳): 音声信号のマルチレゾリューション分光時間特性は、脳が皮質細胞を異なるスペクトルと時間変調にチューニングすることで音を知覚する方法を表す。
これらの特徴は、音声信号の高次元表現を生み出す。
本研究の目的は,音声信号の聴覚野表現が,これらの信号の調音特性の推定にどのように寄与するかを評価することである。
音声信号の音響的特徴から調音的特徴を得ることは,異なる音声コミュニティで注目されている課題であり,この多分解能表現を音響的特徴として用いる可能性について検討する。
我々はウィスコンシン州のX線マイクロビーム(XRMB)データベースを用いて、6つの音節変数の音声軌跡を推定するために、フィードフォワードディープニューラルネットワーク(DNN)を訓練した。
最適スケールとレートベクトルパラメータを用いて, モデル訓練のための多分解能分光時間特性の最適セットを選択した。
実験は0.675と地道変数との相関を達成した。
本研究では,メル周波数ケプストラム係数 (mel frequency cepstral coefficients, mfccs) を用いた先行実験との比較を行った。
関連論文リスト
- PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - Synthesized Speech Detection Using Convolutional Transformer-Based
Spectrogram Analysis [16.93803259128475]
合成音声は、報告された音声信号を作成し、その信号の内容を話さない人に帰属するなど、悪質な目的に使用できる。
本稿では,合成音声検出のためのコンパクト畳み込み変換器を用いて,スペクトル形音声信号の解析を行う。
論文 参考訳(メタデータ) (2022-05-03T22:05:35Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Unsupervised Cross-Domain Speech-to-Speech Conversion with
Time-Frequency Consistency [14.062850439230111]
本稿では,逆行訓練におけるスペクトルの整合性を促進する条件を提案する。
Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2020-05-15T22:27:07Z) - Multi-Time-Scale Convolution for Emotion Recognition from Speech Audio
Signals [7.219077740523682]
本稿では,音声データを解析する際の時間変動に対する柔軟性を実現するため,マルチタイムスケール(MTS)手法を提案する。
MTSと標準畳み込み層を,異なる大きさの4つのデータセットを用いて,音声からの感情認識のための異なるアーキテクチャで評価した。
論文 参考訳(メタデータ) (2020-03-06T12:28:04Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。