論文の概要: Multi-View Self-Attention Based Transformer for Speaker Recognition
- arxiv url: http://arxiv.org/abs/2110.05036v1
- Date: Mon, 11 Oct 2021 07:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:14:17.549227
- Title: Multi-View Self-Attention Based Transformer for Speaker Recognition
- Title(参考訳): 話者認識のための多視点自己認識型変換器
- Authors: Rui Wang, Junyi Ao, Long Zhou, Shujie Liu, Zhihua Wei, Tom Ko, Qing
Li, Yu Zhang
- Abstract要約: トランスフォーマーモデルは、話者認識などの音声処理タスクに広く利用されている。
本稿では,話者変換器のための多視点自己認識機構を提案する。
提案した話者トランスフォーマーネットワークは,最先端モデルと比較して優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 33.21173007319178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Initially developed for natural language processing (NLP), Transformer model
is now widely used for speech processing tasks such as speaker recognition, due
to its powerful sequence modeling capabilities. However, conventional
self-attention mechanisms are originally designed for modeling textual sequence
without considering the characteristics of speech and speaker modeling.
Besides, different Transformer variants for speaker recognition have not been
well studied. In this work, we propose a novel multi-view self-attention
mechanism and present an empirical study of different Transformer variants with
or without the proposed attention mechanism for speaker recognition.
Specifically, to balance the capabilities of capturing global dependencies and
modeling the locality, we propose a multi-view self-attention mechanism for
speaker Transformer, in which different attention heads can attend to different
ranges of the receptive field. Furthermore, we introduce and compare five
Transformer variants with different network architectures, embedding locations,
and pooling methods to learn speaker embeddings. Experimental results on the
VoxCeleb1 and VoxCeleb2 datasets show that the proposed multi-view
self-attention mechanism achieves improvement in the performance of speaker
recognition, and the proposed speaker Transformer network attains excellent
results compared with state-of-the-art models.
- Abstract(参考訳): 当初、自然言語処理(nlp)用に開発されたトランスフォーマーモデルは、強力なシーケンスモデリング能力のため、話者認識などの音声処理タスクに広く使用されている。
しかし、従来のセルフアテンション機構は、音声や話者モデルの特徴を考慮せずにテキストシーケンスをモデル化するように設計されている。
また、話者認識のための異なるトランスフォーマティブも十分に研究されていない。
本研究では,新しい多視点自己着脱機構を提案し,提案する話者認識のための注意機構の有無を問わないトランスフォーマティブの実験的検討を行う。
具体的には、グローバル依存を捉えて局所性をモデル化する能力のバランスをとるために、異なる注意ヘッドが受容野の異なる範囲に到達できる話者トランスフォーマのための多視点自己照準機構を提案する。
さらに,5種類のTransformer変種と異なるネットワークアーキテクチャ,埋め込み場所,話者埋め込み学習のためのプール手法を導入・比較する。
voxceleb1およびvoxceleb2データセットにおける実験結果から,提案する多視点自己照準機構は話者認識性能の向上を達成し,提案する話者トランスフォーマネットワークは最先端モデルと比較して優れた結果を得た。
関連論文リスト
- Improving Transformer-based Conversational ASR by Inter-Sentential
Attention Mechanism [20.782319059183173]
本稿では,会話音声認識のためのトランスフォーマーに基づくエンドツーエンドアーキテクチャにおいて,文間情報を明示的にモデル化することを提案する。
提案手法は,複数のオープンソースの対話コーパスに対して有効であり,提案手法は発話レベル変換器を用いたASRモデルから連続的に性能を向上する。
論文 参考訳(メタデータ) (2022-07-02T17:17:47Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - A Hierarchical Transformer with Speaker Modeling for Emotion Recognition
in Conversation [12.065178204539693]
Emotion Recognition in Conversation(ERC)は、パーソナライズされたインタラクティブな感情認識タスクです。
現在の方法は、各話者間の関係を構築することによって話者の相互作用をモデル化する。
複雑なモデリングをバイナリバージョン – スピーカー内依存関係とスピーカー間依存関係 – に簡略化します。
論文 参考訳(メタデータ) (2020-12-29T14:47:35Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。