論文の概要: Text Augmentation for Language Models in High Error Recognition Scenario
- arxiv url: http://arxiv.org/abs/2011.06056v1
- Date: Wed, 11 Nov 2020 20:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:07:57.581873
- Title: Text Augmentation for Language Models in High Error Recognition Scenario
- Title(参考訳): 高誤り認識シナリオにおける言語モデルのテキスト拡張
- Authors: Karel Bene\v{s} and Luk\'a\v{s} Burget
- Abstract要約: 我々は,大域的エラー統計に基づく拡張を,ASRエラーの単語単位のユニグラム統計に基づくものと比較した。
我々は,CHiMe-6チャレンジにおいて,第2パス再描画から第1.1 %から第1.9 %まで絶対的な WER の改善を図っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We examine the effect of data augmentation for training of language models
for speech recognition. We compare augmentation based on global error
statistics with one based on per-word unigram statistics of ASR errors and
observe that it is better to only pay attention the global substitution,
deletion and insertion rates. This simple scheme also performs consistently
better than label smoothing and its sampled variants. Additionally, we
investigate into the behavior of perplexity estimated on augmented data, but
conclude that it gives no better prediction of the final error rate. Our best
augmentation scheme increases the absolute WER improvement from second-pass
rescoring from 1.1 % to 1.9 % absolute on the CHiMe-6 challenge.
- Abstract(参考訳): 音声認識のための言語モデルの訓練におけるデータ拡張の効果を検討する。
我々は,asrエラーの単語単位のユニグラム統計に基づいて,グローバルエラー統計に基づく拡張を比較検討し,グローバルエラーの置換,削除,挿入率にのみ注意を払う方がよいことを観察した。
この単純なスキームはラベルの平滑化やサンプルの変種よりも一貫して性能が良い。
さらに,拡張データから推定したパープレキシティの挙動について検討するが,最終誤差率の予測には適さないと結論づけた。
我々は,CHiMe-6チャレンジにおいて,第2パス再描画から第1.1 %から第1.9 %まで絶対 WER の改善を図っている。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction [18.97378605403447]
ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。
パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
論文 参考訳(メタデータ) (2024-01-11T06:30:07Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data
Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。
公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文 参考訳(メタデータ) (2023-03-02T12:18:53Z) - SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-11-02T07:13:30Z) - Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation [32.885722714728765]
CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
論文 参考訳(メタデータ) (2022-05-25T10:44:36Z) - Counterfactual Data Augmentation improves Factuality of Abstractive
Summarization [6.745946263790011]
提案手法によりトレーニングデータを増強することにより,ROUGEスコアに大きな影響を及ぼすことなく,要約の事実的正しさが向上することを示す。
一般的に使われている2つの要約データセット(CNN/Dailymail と XSum)では,平均2.5ポイント程度で事実の正しさが向上することを示す。
論文 参考訳(メタデータ) (2022-05-25T00:00:35Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。