論文の概要: Chronological Self-Training for Real-Time Speaker Diarization
- arxiv url: http://arxiv.org/abs/2208.03393v1
- Date: Fri, 5 Aug 2022 21:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:43:44.108164
- Title: Chronological Self-Training for Real-Time Speaker Diarization
- Title(参考訳): リアルタイム話者ダイアリゼーションのための時系列自己学習
- Authors: Dirk Padfield, Daniel J. Liebling
- Abstract要約: リアルタイムダイアリゼーションシステムは、ユーザインタラクション時間を短縮するために、登録トレーニングサンプルを制限する必要がある。
時間的自己学習手法を用いて,精度を劇的に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 2.240876415437428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diarization partitions an audio stream into segments based on the voices of
the speakers. Real-time diarization systems that include an enrollment step
should limit enrollment training samples to reduce user interaction time.
Although training on a small number of samples yields poor performance, we show
that the accuracy can be improved dramatically using a chronological
self-training approach. We studied the tradeoff between training time and
classification performance and found that 1 second is sufficient to reach over
95% accuracy. We evaluated on 700 audio conversation files of about 10 minutes
each from 6 different languages and demonstrated average diarization error
rates as low as 10%.
- Abstract(参考訳): ダイアリゼーションは、話者の声に基づいて音声ストリームをセグメントに分割する。
登録ステップを含むリアルタイムダイアリゼーションシステムは、ユーザインタラクション時間を削減するために、登録トレーニングサンプルを制限する必要がある。
少数のサンプルでのトレーニングでは性能が低下するが,時系列的自己学習手法を用いて精度が劇的に向上することを示す。
トレーニング時間と分類性能のトレードオフを検討したところ、1秒で95%以上の精度に到達できることがわかった。
6つの異なる言語から約10分間の700の音声会話ファイルで評価し,平均ダイアリゼーションエラー率は10%であった。
関連論文リスト
- STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Personalized Automatic Speech Recognition Trained on Small Disordered
Speech Datasets [0.0]
言語障害の度合いや種類によって異なる195人を対象に、パーソナライズされたモデルを訓練した。
ホームオートメーションのシナリオでは、話者の79%が18~20分間のスピーチでターゲットWERに到達したが、3~4分間のスピーチでは、話者の63%がターゲットWERに到達した。
論文 参考訳(メタデータ) (2021-10-09T17:11:17Z) - Injecting Text in Self-Supervised Speech Pretraining [33.676479965610774]
我々は,2つの異なるモーダル(音声とテキスト)から事前学習中の表現を共同学習することを提案する。
tts4pretrainは自己スーパービジョンにおけるコントラスト学習のパワーを補完する。
We demonstrate Word Error Rate (WER) reductions of 10% relative on the well-benchmarked, Librispeech task。
論文 参考訳(メタデータ) (2021-08-27T11:36:40Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。
我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文 参考訳(メタデータ) (2020-10-27T14:29:28Z) - Multi-Staged Cross-Lingual Acoustic Model Adaption for Robust Speech
Recognition in Real-World Applications -- A Case Study on German Oral History
Interviews [21.47857960919014]
本稿では,言語横断的,多段階的手法により,対象領域へのロバストな音響モデル適応を実現する手法を提案する。
我々のアプローチは、同じ言語と他の言語の両方で、他のドメインからの大規模なトレーニングデータの利用を可能にします。
論文 参考訳(メタデータ) (2020-05-26T08:05:25Z) - Segment Aggregation for short utterances speaker verification using raw
waveforms [47.41124427552161]
本稿では,短い発話に対する話者検証の性能劣化を補う手法を提案する。
提案手法はアンサンブルに基づく設計を採用し,話者検証システムの安定性と精度を向上させる。
論文 参考訳(メタデータ) (2020-05-07T08:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。