論文の概要: End-to-End Speaker Height and age estimation using Attention Mechanism
with LSTM-RNN
- arxiv url: http://arxiv.org/abs/2101.05056v1
- Date: Wed, 13 Jan 2021 13:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 13:41:02.254870
- Title: End-to-End Speaker Height and age estimation using Attention Mechanism
with LSTM-RNN
- Title(参考訳): LSTM-RNNを用いたアテンションメカニズムによる話者の高さと年齢推定
- Authors: Manav Kaushik, Van Tung Pham, Eng Siong Chng
- Abstract要約: 高さと年齢の推定のためのエンドツーエンドアーキテクチャを構築するための注意メカニズムを使用する新しいアプローチを提案します。
注意機構は、入力音響特徴の長期的な依存関係を捉えることができるlong short-term memory(lstm)エンコーダと組み合わせられる。
- 参考スコア(独自算出の注目度): 24.46321998619126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic height and age estimation of speakers using acoustic features is
widely used for the purpose of human-computer interaction, forensics, etc. In
this work, we propose a novel approach of using attention mechanism to build an
end-to-end architecture for height and age estimation. The attention mechanism
is combined with Long Short-Term Memory(LSTM) encoder which is able to capture
long-term dependencies in the input acoustic features. We modify the
conventionally used Attention -- which calculates context vectors the sum of
attention only across timeframes -- by introducing a modified context vector
which takes into account total attention across encoder units as well, giving
us a new cross-attention mechanism. Apart from this, we also investigate a
multi-task learning approach for jointly estimating speaker height and age. We
train and test our model on the TIMIT corpus. Our model outperforms several
approaches in the literature. We achieve a root mean square error (RMSE) of
6.92cm and6.34cm for male and female heights respectively and RMSE of 7.85years
and 8.75years for male and females ages respectively. By tracking the attention
weights allocated to different phones, we find that Vowel phones are most
important whistlestop phones are least important for the estimation task.
- Abstract(参考訳): 音響的特徴を用いた話者の自動高さ・年齢推定は,人間とコンピュータの相互作用,法医学などのために広く用いられている。
本研究では,アテンション機構を用いて,身長と年齢推定のためのエンドツーエンド・アーキテクチャを構築する新しい手法を提案する。
注意機構は、入力音響特徴の長期的な依存関係を捉えることができるlong short-term memory(lstm)エンコーダと組み合わせられる。
我々は、エンコーダユニット全体の注意を考慮に入れた修正されたコンテキストベクトルを導入することで、コンテキストベクトルが時間枠をまたいでのみ注意の総和を計算する、従来の注意を変更できる。
これとは別に、話者の高さと年齢を同時推定するマルチタスク学習手法についても検討する。
TIMITコーパスでモデルをトレーニングし、テストします。
我々のモデルは文学のいくつかのアプローチを上回っている。
男性では根平均二乗誤差 (rmse) が6.92cm, 女性では6.34cm, 男性では7.85年, 女性では8.75年であった。
異なる電話機に割り当てられた注意重みを追跡することで、母音電話は最も重要なホイッスルストップ電話であり、推定作業において重要でないことが分かる。
関連論文リスト
- LoCoNet: Long-Short Context Network for Active Speaker Detection [14.334385838326607]
Active Speaker Detection (ASD) は、ビデオの各フレームで誰が話しているかを特定することを目的としている。
簡単な長短コンテキストネットワークであるLoCoNetを提案する。
LoCoNetは、複数のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-19T18:54:43Z) - Estimation of speaker age and height from speech signal using bi-encoder
transformer mixture model [3.1447111126464997]
話者年齢と高さ推定のためのバイエンコーダ変圧器混合モデルを提案する。
男女の音声特性の広さを考慮し、2つの異なるトランスフォーマーエンコーダを提案する。
年齢推定における現在の最先端の成績を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-22T14:39:56Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - Capturing Multi-Resolution Context by Dilated Self-Attention [58.69803243323346]
限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-04-07T02:04:18Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
論文 参考訳(メタデータ) (2020-08-03T09:31:27Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。