Fugu-MT 論文翻訳(概要): End-to-End Speaker Height and age estimation using Attention Mechanism with LSTM-RNN

論文の概要: End-to-End Speaker Height and age estimation using Attention Mechanism with LSTM-RNN

arxiv url: http://arxiv.org/abs/2101.05056v1
Date: Wed, 13 Jan 2021 13:41:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-30 13:41:02.254870
Title: End-to-End Speaker Height and age estimation using Attention Mechanism with LSTM-RNN
Title（参考訳）: LSTM-RNNを用いたアテンションメカニズムによる話者の高さと年齢推定
Authors: Manav Kaushik, Van Tung Pham, Eng Siong Chng
Abstract要約: 高さと年齢の推定のためのエンドツーエンドアーキテクチャを構築するための注意メカニズムを使用する新しいアプローチを提案します。注意機構は、入力音響特徴の長期的な依存関係を捉えることができるlong short-term memory(lstm)エンコーダと組み合わせられる。
参考スコア（独自算出の注目度）: 24.46321998619126
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic height and age estimation of speakers using acoustic features is widely used for the purpose of human-computer interaction, forensics, etc. In this work, we propose a novel approach of using attention mechanism to build an end-to-end architecture for height and age estimation. The attention mechanism is combined with Long Short-Term Memory(LSTM) encoder which is able to capture long-term dependencies in the input acoustic features. We modify the conventionally used Attention -- which calculates context vectors the sum of attention only across timeframes -- by introducing a modified context vector which takes into account total attention across encoder units as well, giving us a new cross-attention mechanism. Apart from this, we also investigate a multi-task learning approach for jointly estimating speaker height and age. We train and test our model on the TIMIT corpus. Our model outperforms several approaches in the literature. We achieve a root mean square error (RMSE) of 6.92cm and6.34cm for male and female heights respectively and RMSE of 7.85years and 8.75years for male and females ages respectively. By tracking the attention weights allocated to different phones, we find that Vowel phones are most important whistlestop phones are least important for the estimation task.
Abstract（参考訳）: 音響的特徴を用いた話者の自動高さ・年齢推定は,人間とコンピュータの相互作用,法医学などのために広く用いられている。本研究では,アテンション機構を用いて,身長と年齢推定のためのエンドツーエンド・アーキテクチャを構築する新しい手法を提案する。注意機構は、入力音響特徴の長期的な依存関係を捉えることができるlong short-term memory(lstm)エンコーダと組み合わせられる。我々は、エンコーダユニット全体の注意を考慮に入れた修正されたコンテキストベクトルを導入することで、コンテキストベクトルが時間枠をまたいでのみ注意の総和を計算する、従来の注意を変更できる。これとは別に、話者の高さと年齢を同時推定するマルチタスク学習手法についても検討する。 TIMITコーパスでモデルをトレーニングし、テストします。我々のモデルは文学のいくつかのアプローチを上回っている。男性では根平均二乗誤差 (rmse) が6.92cm, 女性では6.34cm, 男性では7.85年, 女性では8.75年であった。異なる電話機に割り当てられた注意重みを追跡することで、母音電話は最も重要なホイッスルストップ電話であり、推定作業において重要でないことが分かる。

関連論文リスト

Frame-Level Internal Tool Use for Temporal Grounding in Audio LMs [48.50855715191533]
大規模な音声言語モデルは、複雑な音声理解タスクにますます使われている。彼らは、単語アライメントや話者ダイアリゼーションのような正確な時間的根拠を必要とする時間的タスクに苦労する。本稿では,フレームレベルの内部ツール使用法を提案する。これは,内部の音声表現を用いて時間的グラウンドを直接行うように音声LMを訓練する手法である。
論文参考訳（メタデータ） (2026-02-10T19:19:52Z)
Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.90783662117936]
クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文参考訳（メタデータ） (2024-11-22T15:29:05Z)
On the token distance modeling ability of higher RoPE attention dimension [76.55792402912027]
本研究では,注目ヘッドの隠蔽次元と長距離依存の捕捉への寄与との関係について検討する。我々は、様々な長さ計測モデルから特定の種類の注意ヘッドを同定し、位置頭部と命名した。これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、長い入力処理において重要な役割を担っている。
論文参考訳（メタデータ） (2024-10-11T10:47:02Z)
Correlation-Aware Select and Merge Attention for Efficient Fine-Tuning and Context Length Extension [21.729875191721984]
本稿では,効率的なスパースアテンションを実現するために,相関認識の選択とマージ機構を導入する。また、位置エンコーディングを含む新しいデータ拡張手法を提案し、不明瞭な位置への一般化を促進する。提案手法は,コンテキスト長4Mのパスキータスクに対して100%の精度を実現し,コンテクスト長1Mで安定したパープレキシティを維持する。
論文参考訳（メタデータ） (2024-10-05T15:59:32Z)
HAFFormer: A Hierarchical Attention-Free Framework for Alzheimer's Disease Detection From Spontaneous Speech [42.688549469089985]
我々は,アルツハイマー病検出のための長期スピーチをよりよく扱うために,階層型注意・自由変換器(HAFFormer)という新しい枠組みを構築した。具体的には,マルチスケールデプスワイズ・コンボリューション(Multi-Scale Depthwise Convolution)のアテンションフリーモジュールを用いて,自己アテンションを置き換え,コストのかかる計算を回避する。 ADReSS-Mデータセットに関する広範な実験を行うことで、紹介されたHAFFormerは他の最近の研究と競合する結果(82.6%の精度)を達成できる。
論文参考訳（メタデータ） (2024-05-07T02:19:16Z)
LoCoNet: Long-Short Context Network for Active Speaker Detection [18.06037779826666]
Active Speaker Detection (ASD) は、ビデオの各フレームで誰が話しているかを特定することを目的としている。簡単な長短コンテキストネットワークであるLoCoNetを提案する。 LoCoNetは、複数のデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-01-19T18:54:43Z)
Estimation of speaker age and height from speech signal using bi-encoder transformer mixture model [3.1447111126464997]
話者年齢と高さ推定のためのバイエンコーダ変圧器混合モデルを提案する。男女の音声特性の広さを考慮し、2つの異なるトランスフォーマーエンコーダを提案する。年齢推定における現在の最先端の成績を著しく上回る結果を得た。
論文参考訳（メタデータ） (2022-03-22T14:39:56Z)
Real-time Speaker counting in a cocktail party scenario using Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。 WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文参考訳（メタデータ） (2021-10-30T19:24:57Z)
Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文参考訳（メタデータ） (2021-07-14T05:38:48Z)
Temporal Memory Relation Network for Workflow Recognition from Surgical Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文参考訳（メタデータ） (2021-03-30T13:20:26Z)
Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。 SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。このアプローチをVoxCeleb1と2のデータセットで評価した。
論文参考訳（メタデータ） (2020-08-03T09:31:27Z)
Meta-Learning for Short Utterance Speaker Recognition with Imbalance Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文参考訳（メタデータ） (2020-04-06T17:53:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。