論文の概要: Speech Diarization and ASR with GMM
- arxiv url: http://arxiv.org/abs/2307.05637v1
- Date: Tue, 11 Jul 2023 09:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 15:47:45.811638
- Title: Speech Diarization and ASR with GMM
- Title(参考訳): GMMを用いた音声ダイアリゼーションとASR
- Authors: Aayush Kumar Sharma, Vineet Bhavikatti, Amogh Nidawani, Dr.
Siddappaji, Sanath P, Dr Geetishree Mishra
- Abstract要約: 音声ダイアリゼーションは、音声ストリーム内の個々の話者の分離を含む。
ASRは未知の音声波形を対応する書き起こしに変換する。
我々の主な目的は、音声の書き起こし中にワード誤り率(WER)を最小化するモデルを開発することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this research paper, we delve into the topics of Speech Diarization and
Automatic Speech Recognition (ASR). Speech diarization involves the separation
of individual speakers within an audio stream. By employing the ASR transcript,
the diarization process aims to segregate each speaker's utterances, grouping
them based on their unique audio characteristics. On the other hand, Automatic
Speech Recognition refers to the capability of a machine or program to identify
and convert spoken words and phrases into a machine-readable format. In our
speech diarization approach, we utilize the Gaussian Mixer Model (GMM) to
represent speech segments. The inter-cluster distance is computed based on the
GMM parameters, and the distance threshold serves as the stopping criterion.
ASR entails the conversion of an unknown speech waveform into a corresponding
written transcription. The speech signal is analyzed using synchronized
algorithms, taking into account the pitch frequency. Our primary objective
typically revolves around developing a model that minimizes the Word Error Rate
(WER) metric during speech transcription.
- Abstract(参考訳): 本稿では,音声ダイアリゼーションと自動音声認識(ASR)について検討する。
音声ダイアリゼーションは、音声ストリーム内の個々の話者の分離を伴う。
ダイアリゼーションプロセスは、ASR transcriptを利用することで、各話者の発話を分離し、それぞれの独特の音声特性に基づいてグループ化する。
一方、自動音声認識(Automatic Speech Recognition)とは、機械やプログラムが話し言葉やフレーズを機械可読形式に識別・変換する能力である。
音声ダイアリゼーション手法では,ガウス混合モデル(GMM)を用いて音声セグメントを表現する。
クラスタ間距離はGMMパラメータに基づいて計算され、距離閾値は停止基準として機能する。
ASRは未知の音声波形を対応する書き起こしに変換する。
ピッチ周波数を考慮した同期アルゴリズムを用いて音声信号の解析を行う。
我々の主な目的は、音声の書き起こし中にワード誤り率(WER)を最小化するモデルを開発することである。
関連論文リスト
- Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。