論文の概要: Speaker and Language Change Detection using Wav2vec2 and Whisper
- arxiv url: http://arxiv.org/abs/2302.09381v1
- Date: Sat, 18 Feb 2023 16:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 18:55:21.593862
- Title: Speaker and Language Change Detection using Wav2vec2 and Whisper
- Title(参考訳): Wav2vec2とWhisperを用いた話者・言語変化検出
- Authors: Tijn Berns, Nik Vaessen and David A. van Leeuwen
- Abstract要約: 音声認識のために事前訓練されたトランスフォーマーネットワークについて検討し,音声認識における話者と言語の変化を検出する能力について検討した。
話者認識は10%程度の誤り率、言語検出エラー率は数パーセントと同等である。
- 参考スコア(独自算出の注目度): 1.9594639581421422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate recent transformer networks pre-trained for automatic speech
recognition for their ability to detect speaker and language changes in speech.
We do this by simply adding speaker (change) or language targets to the labels.
For Wav2vec2 pre-trained networks, we also investigate if the representation
for the speaker change symbol can be conditioned to capture speaker identity
characteristics. Using a number of constructed data sets we show that these
capabilities are definitely there, with speaker recognition equal error rates
of the order of 10% and language detection error rates of a few percent. We
will publish the code for reproducibility.
- Abstract(参考訳): 本研究では,音声の話者・言語変化を自動音声認識のために事前学習した最近のトランスフォーマネットワークについて検討する。
ラベルに話者(変更)や言語ターゲットを追加するだけでこれを行います。
Wav2vec2事前学習ネットワークでは、話者識別特性を捉えるために、話者変化シンボルの表現を条件付けできるかどうかについても検討する。
いくつかの構築されたデータセットを用いて、話者認識は10%のオーダーのエラー率と数パーセントの言語検出エラー率とで、これらの能力は確実に存在することを示す。
再現性のためにコードを公開します。
関連論文リスト
- Streaming Speaker Change Detection and Gender Classification for Transducer-Based Multi-Talker Speech Translation [45.51065693072839]
本稿では,トランスデューサをベースとしたストリーム・ツー・エンド音声翻訳モデルに話者埋め込みを組み込むことで,ストリーミング話者変化の検出と性別分類に取り組むことを提案する。
提案手法は,話者変化検出と性別分類の両面で高い精度を実現することができることを示す。
論文 参考訳(メタデータ) (2025-02-04T19:50:15Z) - ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification [48.98768967435808]
我々は,音声が登録話者の同一性に一致するかどうかを検証するために,計算手法を用いる。
多くの成功にもかかわらず、我々はまだ説明可能な結果を提供する話者検証システムを開発していない。
本稿では, 話者の音声特性を紹介するために, 説明可能な音声トラヒック指向(ExPO)ネットワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T05:53:37Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT
Based on the Quran Reciters Dataset [0.0]
We developed a Deep learning model for Arabic speakers identification by using Wav2Vec2.0 and HuBERT audio representation learning tools。
この実験により、ある話者に対する任意の波動信号が98%と97.1%の精度で識別できることが保証された。
論文 参考訳(メタデータ) (2021-11-11T17:44:50Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。