論文の概要: XLS-R fine-tuning on noisy word boundaries for unsupervised speech
segmentation into words
- arxiv url: http://arxiv.org/abs/2310.05235v1
- Date: Sun, 8 Oct 2023 17:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 09:12:01.378141
- Title: XLS-R fine-tuning on noisy word boundaries for unsupervised speech
segmentation into words
- Title(参考訳): 教師なし音声セグメンテーションにおける雑音単語境界のxls-r微調整
- Authors: Robin Algayres, Pablo Diego-Simon, Benoit Sagot, Emmanuel Dupoux
- Abstract要約: XLS-Rモデルを微調整し、上位層音声分割システムによって生成された単語境界を予測する。
我々のシステムは、ゼロショット方式で微調整中に目に見えない言語から音声を分割することができる。
- 参考スコア(独自算出の注目度): 13.783996617841467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the absence of explicit word boundaries in the speech stream, the task
of segmenting spoken sentences into word units without text supervision is
particularly challenging. In this work, we leverage the most recent
self-supervised speech models that have proved to quickly adapt to new tasks
through fine-tuning, even in low resource conditions. Taking inspiration from
semi-supervised learning, we fine-tune an XLS-R model to predict word
boundaries themselves produced by top-tier speech segmentation systems: DPDP,
VG-HuBERT, GradSeg and DP-Parse. Once XLS-R is fine-tuned, it is used to infer
new word boundary labels that are used in turn for another fine-tuning step.
Our method consistently improves the performance of each system and sets a new
state-of-the-art that is, on average 130% higher than the previous one as
measured by the F1 score on correctly discovered word tokens on five corpora
featuring different languages. Finally, our system can segment speech from
languages unseen during fine-tuning in a zero-shot fashion.
- Abstract(参考訳): 音声ストリームに明示的な単語境界がないため、テキストの監督なしに音声文を単語単位に分割する作業は特に困難である。
本研究では,低資源条件下でも,微調整によって新しいタスクに迅速に適応することが証明された,最新の自己教師型音声モデルを活用する。
半教師付き学習からインスピレーションを得て,トップ層音声セグメンテーションシステム(DPDP, VG-HuBERT, GradSeg, DP-Parse)が生成する単語境界をXLS-Rモデルに微調整する。
XLS-Rが微調整されると、別の微調整ステップのために順番に使用される新しい単語境界ラベルを推論する。
提案手法は,各システムの性能を常に改善し,異なる言語を特徴とする5つのコーパス上の単語トークンに対して,F1スコアによって測定された平均130%以上の新しい最先端技術を設定する。
最後に,ゼロショット方式では,微調整時に認識できない言語から音声を分割できる。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic
Organization in HuBERT [49.06057768982775]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - DP-Parse: Finding Word Boundaries from Raw Speech with an Instance
Lexicon [18.05179713472479]
DP-Parseも同様の原理を用いるが、ワードトークンのインスタンスレキシコンにのみ依存する。
Zero Resource Speech Benchmark 2017で、我々のモデルは5つの言語で新しい音声セグメンテーション状態を設定する。
型レキシコンが欠如しているにもかかわらず、DP-Parseは言語モデルにパイプライン化され、新しい音声単語埋め込みベンチマークで評価されるように、セマンティック表現を学ぶことができる。
論文 参考訳(メタデータ) (2022-06-22T19:15:57Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Acoustic Unit Discovery by Leveraging a
Language-Independent Subword Discriminative Feature Representation [31.87235700253597]
本論文では,非ラベル音声データから電話型音響ユニット(AUD)を自動的に発見する。
第1段階は単語識別的特徴表現を学習し,第2段階は学習表現にクラスタリングを適用し,検出された音響単位として電話型クラスタを得る,という2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-02T11:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。