論文の概要: Initial Decoding with Minimally Augmented Language Model for Improved Lattice Rescoring in Low Resource ASR
- arxiv url: http://arxiv.org/abs/2403.10937v1
- Date: Sat, 16 Mar 2024 14:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:56:18.184655
- Title: Initial Decoding with Minimally Augmented Language Model for Improved Lattice Rescoring in Low Resource ASR
- Title(参考訳): 低資源ASRにおける格子再構成のための最小拡張言語モデルによる初期復号化
- Authors: Savitha Murthy, Dinkar Sitaram,
- Abstract要約: 本稿では,低リソース言語における格子再構成による音声認識精度向上の問題に対処する。
対象言語のより大きなテキストコーパスに存在するが、ベースラインには存在しない単語ユニグラム数でベースライン言語モデルを最小化する。
提案手法を用いて,21.8% (Telugu) と41.8% (Kannada) の単語誤りを削減した。
- 参考スコア(独自算出の注目度): 0.532018200832244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of improving speech recognition accuracy with lattice rescoring in low-resource languages where the baseline language model is insufficient for generating inclusive lattices. We minimally augment the baseline language model with word unigram counts that are present in a larger text corpus of the target language but absent in the baseline. The lattices generated after decoding with such an augmented baseline language model are more comprehensive. We obtain 21.8% (Telugu) and 41.8% (Kannada) relative word error reduction with our proposed method. This reduction in word error rate is comparable to 21.5% (Telugu) and 45.9% (Kannada) relative word error reduction obtained by decoding with full Wikipedia text augmented language mode while our approach consumes only 1/8th the memory. We demonstrate that our method is comparable with various text selection-based language model augmentation and also consistent for data sets of different sizes. Our approach is applicable for training speech recognition systems under low resource conditions where speech data and compute resources are insufficient, while there is a large text corpus that is available in the target language. Our research involves addressing the issue of out-of-vocabulary words of the baseline in general and does not focus on resolving the absence of named entities. Our proposed method is simple and yet computationally less expensive.
- Abstract(参考訳): 本稿では,包摂的格子を生成するのにベースライン言語モデルが不十分な低リソース言語において,格子再構成による音声認識精度向上の問題に対処する。
対象言語のより大きなテキストコーパスに存在するが、ベースラインには存在しない単語ユニグラム数でベースライン言語モデルを最小化する。
このような拡張ベースライン言語モデルでデコード後に生成された格子はより包括的である。
提案手法を用いて,21.8% (Telugu) と41.8% (Kannada) の単語誤りを削減した。
この単語エラー率の削減は21.5% (Telugu) と45.9% (Kannada) の相対的な単語エラー削減に匹敵する。
提案手法は,テキスト選択に基づく言語モデル拡張と同等であり,異なるサイズのデータセットに一貫性があることを実証する。
提案手法は,音声データや計算資源が不十分な低リソース環境下での音声認識システムの訓練に応用できる。
我々の研究は、基本語の語彙外単語の問題を一般に解決することを含み、名前付きエンティティの欠如を解決することに重点を置いていない。
提案手法は単純であるが,計算コストは低い。
関連論文リスト
- A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - LIMIT: Language Identification, Misidentification, and Translation using
Hierarchical Models in 350+ Languages [27.675441924635294]
現在のシステムは世界の7000の言語の大部分を正確に識別することはできない。
まず、350以上の言語で50Kの多言語・並列児童話のコーパスMCS-350をコンパイルする。
言語識別のための新しい誤予測分解階層モデル LIMIt を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:15:43Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Deep Learning Models for Multilingual Hate Speech Detection [5.977278650516324]
本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。
低リソース設定では、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最善である。
ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。
論文 参考訳(メタデータ) (2020-04-14T13:14:27Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。