論文の概要: An Effective Transformer-based Contextual Model and Temporal Gate
Pooling for Speaker Identification
- arxiv url: http://arxiv.org/abs/2308.11241v1
- Date: Tue, 22 Aug 2023 07:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:35:51.608453
- Title: An Effective Transformer-based Contextual Model and Temporal Gate
Pooling for Speaker Identification
- Title(参考訳): 話者識別のための効果的な変圧器型文脈モデルと時間ゲートプーリング
- Authors: Harunori Kawano and Sota Shimizu
- Abstract要約: 本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。
話者識別のための強力な学習能力を備えたプール手法であるテンポラルゲートプーリングを提案する。
提案手法は28.5Mパラメータで85.9%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wav2vec2 has achieved success in applying Transformer architecture and
self-supervised learning to speech recognition. Recently, these have come to be
used not only for speech recognition but also for the entire speech processing.
This paper introduces an effective end-to-end speaker identification model
applied Transformer-based contextual model. We explored the relationship
between the parameters and the performance in order to discern the structure of
an effective model. Furthermore, we propose a pooling method, Temporal Gate
Pooling, with powerful learning ability for speaker identification. We applied
Conformer as encoder and BEST-RQ for pre-training and conducted an evaluation
utilizing the speaker identification of VoxCeleb1. The proposed method has
achieved an accuracy of 85.9% with 28.5M parameters, demonstrating comparable
precision to wav2vec2 with 317.7M parameters. Code is available at
https://github.com/HarunoriKawano/speaker-identification-with-tgp.
- Abstract(参考訳): Wav2vec2はトランスフォーマーアーキテクチャと自己教師型学習を音声認識に適用することに成功した。
近年,これらは音声認識だけでなく,音声処理全般にも利用されるようになった。
本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。
実効モデルの構造を明らかにするために,パラメータと性能の関係について検討した。
さらに,話者識別のための強力な学習能力を有するプール方式であるtemporal gate poolingを提案する。
コーダとしてconformerを適用し,事前学習にbest-rqを適用し,voxceleb1の話者識別を用いた評価を行った。
提案手法は28.5Mパラメータで85.9%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
コードはhttps://github.com/HarunoriKawano/speaker-identification-with-tgpで入手できる。
関連論文リスト
- One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT
Based on the Quran Reciters Dataset [0.0]
We developed a Deep learning model for Arabic speakers identification by using Wav2Vec2.0 and HuBERT audio representation learning tools。
この実験により、ある話者に対する任意の波動信号が98%と97.1%の精度で識別できることが保証された。
論文 参考訳(メタデータ) (2021-11-11T17:44:50Z) - Fine-tuning wav2vec2 for speaker recognition [3.69563307866315]
本稿では,事前学習した重みが話者認識タスクに与える影響と,wav2vec2出力シーケンスを固定長話者埋め込みにプーリングする方法について検討する。
この枠組みを話者認識に適用するために,CE と AAM のソフトマックス損失を持つ単一発話分類変種と,BCE の損失を持つ発話ペア分類変種を提案する。
論文 参考訳(メタデータ) (2021-09-30T12:16:47Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - A Lightweight Speaker Recognition System Using Timbre Properties [0.5708902722746041]
ランダム森林分類器に基づく軽量テキスト非依存話者認識モデルを提案する。
また、話者認証と識別タスクの両方に使用される新機能も導入されている。
このプロトタイプは7つの最も活発に探索された特性、ブーム性、明るさ、深さ、硬さ、音色、鋭さ、暖かさを使っている。
論文 参考訳(メタデータ) (2020-10-12T07:56:03Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z) - Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
論文 参考訳(メタデータ) (2020-08-03T09:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。