Fugu-MT 論文翻訳(概要): Towards Unsupervised Speech Recognition Without Pronunciation Models

論文の概要: Towards Unsupervised Speech Recognition Without Pronunciation Models

arxiv url: http://arxiv.org/abs/2406.08380v2
Date: Wed, 08 Jan 2025 19:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.203484
Title: Towards Unsupervised Speech Recognition Without Pronunciation Models
Title（参考訳）: 発音モデルのない教師なし音声認識に向けて
Authors: Junrui Ni, Liming Wang, Yang Zhang, Kaizhi Qian, Heting Gao, Mark Hasegawa-Johnson, Chang D. Yoo,
Abstract要約: 本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
参考スコア（独自算出の注目度）: 57.222729245842054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in supervised automatic speech recognition (ASR) have achieved remarkable performance, largely due to the growing availability of large transcribed speech corpora. However, most languages lack sufficient paired speech and text data to effectively train these systems. In this article, we tackle the challenge of developing ASR systems without paired speech and text corpora by proposing the removal of reliance on a phoneme lexicon. We explore a new research direction: word-level unsupervised ASR, and experimentally demonstrate that an unsupervised speech recognizer can emerge from joint speech-to-speech and text-to-text masked token-infilling. Using a curated speech corpus containing a fixed number of English words, our system iteratively refines the word segmentation structure and achieves a word error rate of between 20-23%, depending on the vocabulary size, without parallel transcripts, oracle word boundaries, or a pronunciation lexicon. This innovative model surpasses the performance of previous unsupervised ASR models under the lexicon-free setting.
Abstract（参考訳）: 教師付き自動音声認識(ASR)の最近の進歩は、大文字起こし音声コーパスの増大により顕著な成果を上げている。しかし、ほとんどの言語はこれらのシステムを効果的に訓練するのに十分なペア音声とテキストデータを持っていない。本稿では,音声レキシコンへの依存の除去を提案することで,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。単語レベルの非教師付きASR(unsupervised ASR)を探索し、非教師付き音声認識器が音声合成とテキスト間マスキングによるトークン入力から出現できることを実験的に実証する。本システムでは, 単語分割構造を反復的に洗練し, 単語誤り率を20～23%まで向上させる。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。

関連論文リスト

MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。 LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。 SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文参考訳（メタデータ） (2025-06-14T15:26:31Z)
XLS-R fine-tuning on noisy word boundaries for unsupervised speech segmentation into words [13.783996617841467]
XLS-Rモデルを微調整し、上位層音声分割システムによって生成された単語境界を予測する。我々のシステムは、ゼロショット方式で微調整中に目に見えない言語から音声を分割することができる。
論文参考訳（メタデータ） (2023-10-08T17:05:00Z)
ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文参考訳（メタデータ） (2023-07-03T06:55:03Z)
Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文参考訳（メタデータ） (2022-11-15T18:44:28Z)
Evaluating context-invariance in unsupervised speech representations [15.67794428589585]
現在のベンチマークでは文脈不変性は測定されていない。我々は文脈不変性を測定するZeroSpeech ABXベンチマークの新バージョンを開発する。表現の文脈依存性は単語レベルの表現の安定性の予測であることを示す。
論文参考訳（メタデータ） (2022-10-27T21:15:49Z)
A Textless Metric for Speech-to-Speech Comparison [20.658229254191266]
テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
論文参考訳（メタデータ） (2022-10-21T09:28:54Z)
Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。事前学習された音声モデルに対する教師なし領域適応手法を提案する。実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文参考訳（メタデータ） (2022-10-18T22:26:13Z)
Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文参考訳（メタデータ） (2022-04-05T21:22:38Z)
Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。教師なしシステムでは、7つの言語で約10～20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文参考訳（メタデータ） (2022-03-29T17:57:53Z)
Comparing Supervised Models And Learned Speech Representations For Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文参考訳（メタデータ） (2021-07-08T17:24:25Z)
Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文参考訳（メタデータ） (2021-07-05T21:08:34Z)
Unsupervised Automatic Speech Recognition: A Review [2.6212127510234797]
研究文献をレビューし、完全に教師なしのASRにつながる可能性のあるモデルとアイデアを特定します。本研究の目的は,音声データのみから学習できることの限界を特定し,音声認識の最小要件を理解することである。
論文参考訳（メタデータ） (2021-06-09T08:33:20Z)
On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。 IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文参考訳（メタデータ） (2021-04-20T17:10:01Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。