論文の概要: USM-SCD: Multilingual Speaker Change Detection Based on Large Pretrained
Foundation Models
- arxiv url: http://arxiv.org/abs/2309.08023v3
- Date: Sat, 6 Jan 2024 05:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:59:42.810350
- Title: USM-SCD: Multilingual Speaker Change Detection Based on Large Pretrained
Foundation Models
- Title(参考訳): usm-scd:大規模基礎モデルに基づく多言語話者変化検出
- Authors: Guanlong Zhao, Yongqiang Wang, Jason Pelecanos, Yu Zhang, Hank Liao,
Yiling Huang, Han Lu, Quan Wang
- Abstract要約: 本稿では,話者のターンを同時に検出し,96言語でASRを実行する多言語話者変化検出モデル(USM-SCD)を提案する。
その結果,USM-SCDモデルでは,96言語のデータからなるテストセットに対して,平均話者変化検出F1スコアの75%以上を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 17.87796508561949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a multilingual speaker change detection model (USM-SCD) that can
simultaneously detect speaker turns and perform ASR for 96 languages. This
model is adapted from a speech foundation model trained on a large quantity of
supervised and unsupervised data, demonstrating the utility of fine-tuning from
a large generic foundation model for a downstream task. We analyze the
performance of this multilingual speaker change detection model through a
series of ablation studies. We show that the USM-SCD model can achieve more
than 75% average speaker change detection F1 score across a test set that
consists of data from 96 languages. On American English, the USM-SCD model can
achieve an 85.8% speaker change detection F1 score across various public and
internal test sets, beating the previous monolingual baseline model by 21%
relative. We also show that we only need to fine-tune one-quarter of the
trainable model parameters to achieve the best model performance. The USM-SCD
model exhibits state-of-the-art ASR quality compared with a strong public ASR
baseline, making it suitable to handle both tasks with negligible additional
computational cost.
- Abstract(参考訳): 本稿では,話者交代を同時検出し,96言語でasrを行う多言語話者変化検出モデル(usm-scd)を提案する。
このモデルは、大量の教師付きおよび教師なしデータに基づいて訓練された音声基礎モデルから適応し、下流タスクのための大規模汎用基礎モデルからの微調整の有用性を示す。
この多言語話者変化検出モデルの性能を一連のアブレーション研究により解析する。
その結果,USM-SCDモデルでは,96言語のデータからなるテストセットに対して,平均話者変化検出F1スコアの75%以上を達成可能であることがわかった。
アメリカ英語では、USM-SCDモデルは、様々な公用および内部テストセットで85.8%の話者変化検出F1スコアを達成することができ、以前のモノリンガルベースラインモデルよりも21%高い。
また、最良のモデル性能を達成するためには、トレーニング可能なモデルパラメータの4分の1を微調整する必要があることも示しています。
USM-SCDモデルは、強力なパブリックなASRベースラインと比較して最先端のASR品質を示しており、両方のタスクを無視できる計算コストで処理するのに適している。
関連論文リスト
- Self-supervised Adaptive Pre-training of Multilingual Speech Models for
Language and Dialect Identification [19.893213508284813]
目標領域や下流タスクの言語に事前学習モデルを適用するために,自己教師付き適応型事前学習を提案する。
SPTはFLEURSベンチマークのXLSR性能を向上し、表現不足言語では40.1%まで向上することを示した。
論文 参考訳(メタデータ) (2023-12-12T14:58:08Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Is it indeed bigger better? The comprehensive study of claim detection
LMs applied for disinformation tackling [1.5856555660089906]
本研究では,チェック価値のあるクレーム検出作業において,微調整モデルと極めて大きな言語モデルの性能を比較した。
様々なソースやスタイルのテキストからなる多言語・多言語データセットを構築した。
論文 参考訳(メタデータ) (2023-11-10T15:36:35Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。