論文の概要: Correcting Automated and Manual Speech Transcription Errors using Warped
Language Models
- arxiv url: http://arxiv.org/abs/2103.14580v1
- Date: Fri, 26 Mar 2021 16:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:49:23.655729
- Title: Correcting Automated and Manual Speech Transcription Errors using Warped
Language Models
- Title(参考訳): ワープ言語モデルを用いた自動および手動音声認識誤りの訂正
- Authors: Mahdi Namazifar, John Malik, Li Erran Li, Gokhan Tur, Dilek Hakkani
T\"ur
- Abstract要約: そこで本稿では,音声の書き起こしを訂正するために,ワープ言語モデルの頑健性を活かした新しい手法を提案する。
提案手法は,音声言語の自動書き起こしと手話書き起こしの両方の単語誤り率を最大10%削減できることを示す。
- 参考スコア(独自算出の注目度): 2.8614709576106874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language models have revolutionized natural language processing
systems in the past few years. A recently introduced generalization of masked
language models called warped language models are trained to be more robust to
the types of errors that appear in automatic or manual transcriptions of spoken
language by exposing the language model to the same types of errors during
training. In this work we propose a novel approach that takes advantage of the
robustness of warped language models to transcription noise for correcting
transcriptions of spoken language. We show that our proposed approach is able
to achieve up to 10% reduction in word error rates of both automatic and manual
transcriptions of spoken language.
- Abstract(参考訳): 仮面言語モデルは、ここ数年で自然言語処理システムに革命をもたらした。
最近導入されたwarped language modelと呼ばれるマスク付き言語モデルの一般化は、トレーニング中に同じタイプのエラーに言語モデルを露出させることで、音声言語の自動転写または手動転写に現れるエラーのタイプに対してより堅牢になるように訓練されている。
本研究は,音声言語の書き起こし訂正のための音声の書き起こしに,ワープ言語モデルの頑健性を利用する新しい手法を提案する。
提案手法は,音声言語の自動書き起こしと手話書き起こしの両方の単語誤り率を最大10%削減できることを示す。
関連論文リスト
- A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Cross-Lingual Unlearning of Selective Knowledge in Multilingual Language Models [38.10962690551031]
事前訓練された言語モデルは、プライベートデータや著作権データを含む膨大な量の情報を記憶し、重大な安全上の懸念を提起する。
センシティブなデータを除いた後、これらのモデルをリトレーニングすることは違法に高価であり、機械学習は実用的で費用対効果の高い代替手段となる。
本稿では,多言語モデルにおける機械学習の先駆的アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-18T07:40:18Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Frustratingly Easy Edit-based Linguistic Steganography with a Masked
Language Model [21.761511258514673]
我々は,仮面言語モデルが既定のソリューションを提供するという考えから,編集に基づく言語ステガノグラフィーを再考する。
提案手法はルール構築を排除し,編集ベースモデルに対して高いペイロード容量を有する。
また、生成ベースの方法よりも自動検出に対してより安全であることが示され、セキュリティ/ペイロード容量のトレードオフをより適切に制御できます。
論文 参考訳(メタデータ) (2021-04-20T08:35:53Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。