Fugu-MT 論文翻訳(概要): Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching

論文の概要: Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching

arxiv url: http://arxiv.org/abs/2310.02382v1
Date: Tue, 3 Oct 2023 19:05:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 17:50:26.977569
Title: Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching
Title（参考訳）: N-スキップグラムと位置ユニグラムマッチングによる教師なし音声認識
Authors: Liming Wang, Mark Hasegawa-Johnson and Chang D. Yoo
Abstract要約: 本稿では,新しいASRシステムであるESPUMを紹介する。このシステムは、少数のサンプルから収集された位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。本モデルは,ASRと音素セグメンテーションにおける競合性能を示す。
参考スコア（独自算出の注目度）: 67.98016412551245
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training unsupervised speech recognition systems presents challenges due to GAN-associated instability, misalignment between speech and text, and significant memory demands. To tackle these challenges, we introduce a novel ASR system, ESPUM. This system harnesses the power of lower-order N-skipgrams (up to N=3) combined with positional unigram statistics gathered from a small batch of samples. Evaluated on the TIMIT benchmark, our model showcases competitive performance in ASR and phoneme segmentation tasks. Access our publicly available code at https://github.com/lwang114/GraphUnsupASR.
Abstract（参考訳）: 教師なし音声認識システムのトレーニングは、gan関連不安定性、音声とテキスト間の不一致、重要なメモリ要求による課題を示す。これらの課題に対処するために,新しいASRシステムであるESPUMを導入する。このシステムは、少数のサンプルから集めた位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。 timitベンチマークで評価されたこのモデルは、asrと音素セグメンテーションタスクにおける競合性能を示す。公開されているコードはhttps://github.com/lwang114/GraphUnsupASRでアクセスできます。

関連論文リスト

BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文参考訳（メタデータ） (2024-11-21T13:05:18Z)
Unifying Global and Near-Context Biasing in a Single Trie Pass [11.277273712268897]
NEバイアスリストと単語レベルn-gram言語モデル(LM)の未探索組み合わせを提案する。提案したキーワードバイアスとn-gram LMの組み合わせは,エンティティ認識を最大32%改善し,WER全体の最大12%削減することを示す。
論文参考訳（メタデータ） (2024-09-20T13:53:37Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-02T20:28:14Z)
A Few Shot Multi-Representation Approach for N-gram Spotting in Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文参考訳（メタデータ） (2022-09-21T15:35:02Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文参考訳（メタデータ） (2022-03-01T05:02:02Z)
Instant One-Shot Word-Learning for Context-Specific Neural Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文参考訳（メタデータ） (2021-07-05T21:08:34Z)
DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文参考訳（メタデータ） (2020-11-02T13:50:59Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。