論文の概要: Improving Word Recognition in Speech Transcriptions by Decision-level
Fusion of Stemming and Two-way Phoneme Pruning
- arxiv url: http://arxiv.org/abs/2107.12428v1
- Date: Mon, 26 Jul 2021 18:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:34:39.039283
- Title: Improving Word Recognition in Speech Transcriptions by Decision-level
Fusion of Stemming and Two-way Phoneme Pruning
- Title(参考訳): ステレオと双方向音声の融合による音声書き起こしにおける単語認識の改善
- Authors: Sunakshi Mehra, Seba Susan
- Abstract要約: 本研究では,スリーミングと双方向音素プルーニングの判定レベルでの融合に基づいて,不完全な音声の書き起こしを訂正するための教師なしアプローチを提案する。
我々は, ストーミング, 音素抽出, フィルタリング, プルーニングを用いて, ベースライン精度を9.34%に改善しようと試みた。
1) 母音と音素を含む音素をフィルタリング・切断する。
- 参考スコア(独自算出の注目度): 3.9596068699962323
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce an unsupervised approach for correcting highly imperfect speech
transcriptions based on a decision-level fusion of stemming and two-way phoneme
pruning. Transcripts are acquired from videos by extracting audio using Ffmpeg
framework and further converting audio to text transcript using Google API. In
the benchmark LRW dataset, there are 500 word categories, and 50 videos per
class in mp4 format. All videos consist of 29 frames (each 1.16 s long) and the
word appears in the middle of the video. In our approach we tried to improve
the baseline accuracy from 9.34% by using stemming, phoneme extraction,
filtering and pruning. After applying the stemming algorithm to the text
transcript and evaluating the results, we achieved 23.34% accuracy in word
recognition. To convert words to phonemes we used the Carnegie Mellon
University (CMU) pronouncing dictionary that provides a phonetic mapping of
English words to their pronunciations. A two-way phoneme pruning is proposed
that comprises of the two non-sequential steps: 1) filtering and pruning the
phonemes containing vowels and plosives 2) filtering and pruning the phonemes
containing vowels and fricatives. After obtaining results of stemming and
two-way phoneme pruning, we applied decision-level fusion and that led to an
improvement of word recognition rate upto 32.96%.
- Abstract(参考訳): 本稿では,steming と two-way phoneme pruning の判定レベルでの融合に基づいて,高度に不完全な音声認識を補正する教師なし手法を提案する。
ビデオからFfmpegフレームワークを使用して音声を抽出し、さらにGoogle APIを使用して音声をテキストに変換することで、トランスクリプトを取得する。
ベンチマークlrwデータセットには、500ワードのカテゴリと、mp4形式のクラス毎に50ビデオがある。
全てのビデオは29フレーム(各1.16秒)からなり、その単語はビデオの中央に表示される。
提案手法では, ストーミング, 音素抽出, フィルタリング, プルーニングを用いて, ベースライン精度を9.34%に改善することを試みた。
テキストスクリプティングにステミングアルゴリズムを適用して結果を評価すると,単語認識の精度は23.34%に達した。
単語を音素に変換するために,カーネギーメロン大学 (CMU) の発音辞書を用いて,英単語の音素マッピングを行った。
1) 母音を含む音素をフィルタリング・プルーニングする,2) 母音を含む音素をフィルタリング・プルーニングする,2) 母音を含む音素をフィルタリング・プルーニングする,の2つの非逐次ステップからなる,双方向の音素のプルーニングを提案する。
発声と双方向の音素切断の結果を得た後, 判定レベル融合を適用し, 単語認識率を32.96%まで改善した。
関連論文リスト
- StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文 参考訳(メタデータ) (2023-12-06T06:37:24Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - IPA-CLIP: Integrating Phonetic Priors into Vision and Language
Pretraining [8.129944388402839]
本稿では,コントラスト言語-画像事前学習(CLIP)に先行音声を挿入する。
IPA-CLIPはこの発音エンコーダと元のCLIPエンコーダ(画像とテキスト)からなる。
論文 参考訳(メタデータ) (2023-03-06T13:59:37Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。