論文の概要: Korean Tokenization for Beam Search Rescoring in Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.03583v1
- Date: Tue, 22 Feb 2022 11:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-13 13:49:06.933825
- Title: Korean Tokenization for Beam Search Rescoring in Speech Recognition
- Title(参考訳): 音声認識におけるビームサーチリコーリングのための韓国語トークン化
- Authors: Kyuhong Shim, Hyewon Bae, Wonyong Sung
- Abstract要約: 韓国のASRに使用されるニューラルネットワークを用いたLMのための韓国のトークン化手法を提案する。
韓国語音節に後続子音がない場合に特別なトークンSkipTCを挿入する新しいトークン化手法を提案する。
実験の結果,SkipTCのない同じLMモデルと比較して,提案手法は単語誤り率を低くすることがわかった。
- 参考スコア(独自算出の注目度): 13.718396242036818
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The performance of automatic speech recognition (ASR) models can be greatly
improved by proper beam-search decoding with external language model (LM).
There has been an increasing interest in Korean speech recognition, but not
many studies have been focused on the decoding procedure. In this paper, we
propose a Korean tokenization method for neural network-based LM used for
Korean ASR. Although the common approach is to use the same tokenization method
for external LM as the ASR model, we show that it may not be the best choice
for Korean. We propose a new tokenization method that inserts a special token,
SkipTC, when there is no trailing consonant in a Korean syllable. By utilizing
the proposed SkipTC token, the input sequence for LM becomes very regularly
patterned so that the LM can better learn the linguistic characteristics. Our
experiments show that the proposed approach achieves a lower word error rate
compared to the same LM model without SkipTC. In addition, we are the first to
report the ASR performance for the recently introduced large-scale 7,600h
Korean speech dataset.
- Abstract(参考訳): 自動音声認識(ASR)モデルの性能は、外部言語モデル(LM)を用いた適切なビーム探索デコーディングにより大幅に向上することができる。
韓国語音声認識への関心は高まっているが、デコード処理に焦点が当てられた研究は少ない。
本稿では,韓国asrに使用するニューラルネットワークに基づくlmのための韓国トークン化手法を提案する。
ASRモデルと同様のトークン化手法を用いるのが一般的であるが,韓国語にとって最善の選択肢ではない可能性が示唆された。
韓国語音節に後続子音がない場合,特別なトークンであるskiptcを挿入する新しいトークン化手法を提案する。
提案したSkipTCトークンを利用することで、LMの入力シーケンスを極めて定期的にパターン化し、LMが言語特性をよりよく学習できるようにする。
提案手法は,SkipTCを使わずに同じLMモデルと比較して単語誤り率を低くすることを示す。
さらに,最近導入された大規模7,600h韓国語音声データセットのASR性能を最初に報告した。
関連論文リスト
- RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。
RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。
実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:49:41Z) - Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models [11.287933170894311]
724Kの仮説と書き起こしのペアを持つ中国語ASRの誤り訂正を目的とした,特殊なベンチマークデータセットを構築した。
本稿では,テキスト仮説から直接Pinyinを転写するプロンプトに対するPinyin正規化法を提案する。
論文 参考訳(メタデータ) (2024-07-02T03:16:47Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T22:26:57Z) - Multi-blank Transducers for Speech Recognition [49.6154259349501]
提案手法では,出力時に2つ以上の入力フレームを消費する空白記号を新たに導入する。
付加記号を大きなブランク、マルチブランクRNN-Tと呼ぶ。
複数の言語とデータセットの実験により、マルチブランクRNN-T法は、相対速度が+90%/+139%以上になることを示した。
論文 参考訳(メタデータ) (2022-11-04T16:24:46Z) - Design of a novel Korean learning application for efficient
pronunciation correction [2.008880264104061]
提案システムでは,音声認識,音声テキスト,音声波形の3つが重要なシステムである。
すると、ソフトウェアはユーザのフレーズと回答を表示し、赤で強調された要素を誤って表示する。
論文 参考訳(メタデータ) (2022-05-04T11:19:29Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文 参考訳(メタデータ) (2021-04-06T03:01:09Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。