論文の概要: Speaker and Language Change Detection using Wav2vec2 and Whisper
- arxiv url: http://arxiv.org/abs/2302.09381v1
- Date: Sat, 18 Feb 2023 16:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:55:21.593862
- Title: Speaker and Language Change Detection using Wav2vec2 and Whisper
- Title(参考訳): Wav2vec2とWhisperを用いた話者・言語変化検出
- Authors: Tijn Berns, Nik Vaessen and David A. van Leeuwen
- Abstract要約: 音声認識のために事前訓練されたトランスフォーマーネットワークについて検討し,音声認識における話者と言語の変化を検出する能力について検討した。
話者認識は10%程度の誤り率、言語検出エラー率は数パーセントと同等である。
- 参考スコア(独自算出の注目度): 1.9594639581421422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate recent transformer networks pre-trained for automatic speech
recognition for their ability to detect speaker and language changes in speech.
We do this by simply adding speaker (change) or language targets to the labels.
For Wav2vec2 pre-trained networks, we also investigate if the representation
for the speaker change symbol can be conditioned to capture speaker identity
characteristics. Using a number of constructed data sets we show that these
capabilities are definitely there, with speaker recognition equal error rates
of the order of 10% and language detection error rates of a few percent. We
will publish the code for reproducibility.
- Abstract(参考訳): 本研究では,音声の話者・言語変化を自動音声認識のために事前学習した最近のトランスフォーマネットワークについて検討する。
ラベルに話者(変更)や言語ターゲットを追加するだけでこれを行います。
Wav2vec2事前学習ネットワークでは、話者識別特性を捉えるために、話者変化シンボルの表現を条件付けできるかどうかについても検討する。
いくつかの構築されたデータセットを用いて、話者認識は10%のオーダーのエラー率と数パーセントの言語検出エラー率とで、これらの能力は確実に存在することを示す。
再現性のためにコードを公開します。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT
Based on the Quran Reciters Dataset [0.0]
We developed a Deep learning model for Arabic speakers identification by using Wav2Vec2.0 and HuBERT audio representation learning tools。
この実験により、ある話者に対する任意の波動信号が98%と97.1%の精度で識別できることが保証された。
論文 参考訳(メタデータ) (2021-11-11T17:44:50Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。