論文の概要: MCSAE: Masked Cross Self-Attentive Encoding for Speaker Embedding
- arxiv url: http://arxiv.org/abs/2001.10817v4
- Date: Tue, 28 Jul 2020 07:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:34:19.661764
- Title: MCSAE: Masked Cross Self-Attentive Encoding for Speaker Embedding
- Title(参考訳): MCSAE: 話者埋め込みのためのクロス・アテンティブ・エンコーディング
- Authors: Soonshin Seo, Ji-Hwan Kim
- Abstract要約: 本稿では,ResNet を用いたマスク型クロスアテンティブ符号化 (MCSAE) を提案する。
ハイレベル層と低レベル層の両方の機能に焦点を当てている。
実験の結果, 誤差率は2.63%, 最小検出コストは0.1453であった。
- 参考スコア(独自算出の注目度): 8.942112181408158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In general, a self-attention mechanism has been applied for speaker embedding
encoding. Previous studies focused on training the self-attention in a
high-level layer, such as the last pooling layer. However, the effect of
low-level features was reduced in the speaker embedding encoding. Therefore, we
propose masked cross self-attentive encoding (MCSAE) using ResNet. It focuses
on the features of both high-level and lowlevel layers. Based on multi-layer
aggregation, the output features of each residual layer are used for the MCSAE.
In the MCSAE, cross self-attention module is trained the interdependence of
each input features. A random masking regularization module also applied to
preventing overfitting problem. As such, the MCSAE enhances the weight of
frames representing the speaker information. Then, the output features are
concatenated and encoded to the speaker embedding. Therefore, a more
informative speaker embedding is encoded by using the MCSAE. The experimental
results showed an equal error rate of 2.63% and a minimum detection cost
function of 0.1453 using the VoxCeleb1 evaluation dataset. These were improved
performances compared with the previous self-attentive encoding and
state-of-the-art encoding methods.
- Abstract(参考訳): 一般に、話者埋め込み符号化に自己注意機構が適用されている。
以前の研究では、最後のプーリング層のような高レベルの層における自己注意のトレーニングに焦点が当てられていた。
しかし, 話者埋め込み符号化では低レベル特徴の影響が小さくなった。
そこで,我々はresnetを用いたマスク付きクロス・セルフ・アテンティブ・エンコーディング(mcsae)を提案する。
高レベル層と低レベル層の両方の機能に焦点を当てている。
多層アグリゲーションに基づいて、各残留層の出力特性をMCSAEに使用する。
MCSAEでは、各入力特徴の相互依存性について、クロス自己注意モジュールを訓練する。
ランダムマスク正規化モジュールもオーバーフィッティング問題を防止するために適用された。
このため、MCSAEは、話者情報を表すフレームの重量を増大させる。
そして、出力特徴を連結し、スピーカ埋め込みに符号化する。
したがって、より情報性の高い話者埋め込みをMCSAEを用いて符号化する。
実験の結果、VoxCeleb1評価データセットを用いて、2.63%の誤差率と0.1453の最小検出コスト関数が得られた。
これらは従来の自己注意エンコーディングや最先端エンコーディングに比べて性能が向上した。
関連論文リスト
- Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Automated Audio Captioning via Fusion of Low- and High- Dimensional
Features [48.62190893209622]
既存のAAC法では、PANNの高次元表現のみをデコーダの入力として用いている。
新たなエンコーダデコーダフレームワークであるLow- and High-dimensional Feature Fusion (LHDFF)モデルが提案されている。
LHDFFは、他の既存のモデルと比較して、ClothoとAudioCapsデータセット上で最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-10T22:39:41Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。
我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。
MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文 参考訳(メタデータ) (2022-03-30T22:06:13Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A DNN Based Post-Filter to Enhance the Quality of Coded Speech in MDCT
Domain [16.70806998451696]
本稿では,MDCTドメインで直接動作するマスクベースのポストフィルタを提案する。
実数値マスクは量子化MDCT係数に適用され、比較的軽量な畳み込みエンコーダ・デコーダネットワークから推定される。
提案手法は,最近標準化された低遅延低複素度 (LC3) で16kbpsの最小係数で試される。
論文 参考訳(メタデータ) (2022-01-28T11:08:02Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。