論文の概要: End-to-End Speaker Height and age estimation using Attention Mechanism
with LSTM-RNN
- arxiv url: http://arxiv.org/abs/2101.05056v1
- Date: Wed, 13 Jan 2021 13:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 13:41:02.254870
- Title: End-to-End Speaker Height and age estimation using Attention Mechanism
with LSTM-RNN
- Title(参考訳): LSTM-RNNを用いたアテンションメカニズムによる話者の高さと年齢推定
- Authors: Manav Kaushik, Van Tung Pham, Eng Siong Chng
- Abstract要約: 高さと年齢の推定のためのエンドツーエンドアーキテクチャを構築するための注意メカニズムを使用する新しいアプローチを提案します。
注意機構は、入力音響特徴の長期的な依存関係を捉えることができるlong short-term memory(lstm)エンコーダと組み合わせられる。
- 参考スコア(独自算出の注目度): 24.46321998619126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic height and age estimation of speakers using acoustic features is
widely used for the purpose of human-computer interaction, forensics, etc. In
this work, we propose a novel approach of using attention mechanism to build an
end-to-end architecture for height and age estimation. The attention mechanism
is combined with Long Short-Term Memory(LSTM) encoder which is able to capture
long-term dependencies in the input acoustic features. We modify the
conventionally used Attention -- which calculates context vectors the sum of
attention only across timeframes -- by introducing a modified context vector
which takes into account total attention across encoder units as well, giving
us a new cross-attention mechanism. Apart from this, we also investigate a
multi-task learning approach for jointly estimating speaker height and age. We
train and test our model on the TIMIT corpus. Our model outperforms several
approaches in the literature. We achieve a root mean square error (RMSE) of
6.92cm and6.34cm for male and female heights respectively and RMSE of 7.85years
and 8.75years for male and females ages respectively. By tracking the attention
weights allocated to different phones, we find that Vowel phones are most
important whistlestop phones are least important for the estimation task.
- Abstract(参考訳): 音響的特徴を用いた話者の自動高さ・年齢推定は,人間とコンピュータの相互作用,法医学などのために広く用いられている。
本研究では,アテンション機構を用いて,身長と年齢推定のためのエンドツーエンド・アーキテクチャを構築する新しい手法を提案する。
注意機構は、入力音響特徴の長期的な依存関係を捉えることができるlong short-term memory(lstm)エンコーダと組み合わせられる。
我々は、エンコーダユニット全体の注意を考慮に入れた修正されたコンテキストベクトルを導入することで、コンテキストベクトルが時間枠をまたいでのみ注意の総和を計算する、従来の注意を変更できる。
これとは別に、話者の高さと年齢を同時推定するマルチタスク学習手法についても検討する。
TIMITコーパスでモデルをトレーニングし、テストします。
我々のモデルは文学のいくつかのアプローチを上回っている。
男性では根平均二乗誤差 (rmse) が6.92cm, 女性では6.34cm, 男性では7.85年, 女性では8.75年であった。
異なる電話機に割り当てられた注意重みを追跡することで、母音電話は最も重要なホイッスルストップ電話であり、推定作業において重要でないことが分かる。
関連論文リスト
- Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。
近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。
マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文 参考訳(メタデータ) (2024-11-22T15:29:05Z) - On the token distance modeling ability of higher RoPE attention dimension [76.55792402912027]
本研究では,注目ヘッドの隠蔽次元と長距離依存の捕捉への寄与との関係について検討する。
我々は、様々な長さ計測モデルから特定の種類の注意ヘッドを同定し、位置頭部と命名した。
これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、長い入力処理において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-10-11T10:47:02Z) - Correlation-Aware Select and Merge Attention for Efficient Fine-Tuning and Context Length Extension [21.729875191721984]
本稿では,効率的なスパースアテンションを実現するために,相関認識の選択とマージ機構を導入する。
また、位置エンコーディングを含む新しいデータ拡張手法を提案し、不明瞭な位置への一般化を促進する。
提案手法は,コンテキスト長4Mのパスキータスクに対して100%の精度を実現し,コンテクスト長1Mで安定したパープレキシティを維持する。
論文 参考訳(メタデータ) (2024-10-05T15:59:32Z) - HAFFormer: A Hierarchical Attention-Free Framework for Alzheimer's Disease Detection From Spontaneous Speech [42.688549469089985]
我々は,アルツハイマー病検出のための長期スピーチをよりよく扱うために,階層型注意・自由変換器(HAFFormer)という新しい枠組みを構築した。
具体的には,マルチスケールデプスワイズ・コンボリューション(Multi-Scale Depthwise Convolution)のアテンションフリーモジュールを用いて,自己アテンションを置き換え,コストのかかる計算を回避する。
ADReSS-Mデータセットに関する広範な実験を行うことで、紹介されたHAFFormerは他の最近の研究と競合する結果(82.6%の精度)を達成できる。
論文 参考訳(メタデータ) (2024-05-07T02:19:16Z) - LoCoNet: Long-Short Context Network for Active Speaker Detection [18.06037779826666]
Active Speaker Detection (ASD) は、ビデオの各フレームで誰が話しているかを特定することを目的としている。
簡単な長短コンテキストネットワークであるLoCoNetを提案する。
LoCoNetは、複数のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-19T18:54:43Z) - Estimation of speaker age and height from speech signal using bi-encoder
transformer mixture model [3.1447111126464997]
話者年齢と高さ推定のためのバイエンコーダ変圧器混合モデルを提案する。
男女の音声特性の広さを考慮し、2つの異なるトランスフォーマーエンコーダを提案する。
年齢推定における現在の最先端の成績を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-22T14:39:56Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
論文 参考訳(メタデータ) (2020-08-03T09:31:27Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。