論文の概要: Optimized Tokenization for Transcribed Error Correction
- arxiv url: http://arxiv.org/abs/2310.10704v1
- Date: Mon, 16 Oct 2023 12:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 19:37:09.028803
- Title: Optimized Tokenization for Transcribed Error Correction
- Title(参考訳): 転写誤り訂正のための最適化トークン化
- Authors: Tomer Wullach, Shlomo E. Chazan
- Abstract要約: 本研究では, 合成データのみを用いたトレーニングにより, 補正モデルの性能を著しく向上させることができることを示す。
具体的には、一組の転写データから得られた誤差分布を用いて生成された合成データが、ランダムな摂動を適用する一般的な手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.297878672883973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The challenges facing speech recognition systems, such as variations in
pronunciations, adverse audio conditions, and the scarcity of labeled data,
emphasize the necessity for a post-processing step that corrects recurring
errors. Previous research has shown the advantages of employing dedicated error
correction models, yet training such models requires large amounts of labeled
data which is not easily obtained. To overcome this limitation, synthetic
transcribed-like data is often utilized, however, bridging the distribution gap
between transcribed errors and synthetic noise is not trivial. In this paper,
we demonstrate that the performance of correction models can be significantly
increased by training solely using synthetic data. Specifically, we empirically
show that: (1) synthetic data generated using the error distribution derived
from a set of transcribed data outperforms the common approach of applying
random perturbations; (2) applying language-specific adjustments to the
vocabulary of a BPE tokenizer strike a balance between adapting to unseen
distributions and retaining knowledge of transcribed errors. We showcase the
benefits of these key observations, and evaluate our approach using multiple
languages, speech recognition systems and prominent speech recognition
datasets.
- Abstract(参考訳): 音声認識システムに直面する課題は、発音の変化、悪い音声条件、ラベル付きデータの不足などであり、繰り返しエラーを修正する後処理ステップの必要性を強調している。
従来の研究では、専用の誤り訂正モデルを用いることの利点が示されているが、そのようなモデルの訓練には、容易に取得できない大量のラベル付きデータが必要である。
この制限を克服するために、合成転写データを利用することが多いが、転写誤りと合成ノイズとの分配ギャップを埋めることは容易ではない。
本稿では,合成データのみを用いてトレーニングを行うことで,補正モデルの性能を大幅に向上できることを示す。
具体的には,(1)一組の転写データから生成された誤り分布を用いて生成された合成データは,ランダムな摂動を適用する一般的なアプローチを上回っており,(2)bpeトークン化器の語彙に言語固有の調整を適用すると,認識されていない分布への適応と転写されたエラーの知識の保持のバランスが崩れる。
本稿では,これらの重要な観測結果の利点を示し,複数の言語,音声認識システム,著名音声認識データセットを用いたアプローチを評価する。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Detecting Label Errors using Pre-Trained Language Models [37.82128817976385]
学習済みの大規模言語モデルでは,データセットのラベルエラーを識別する能力が非常に高いことを示す。
クラウドソーシングされたデータからリアルで人間指向のラベルノイズを生成するための新しい手法を提案し,この手法の有効性をTweetNLP上で実証する。
論文 参考訳(メタデータ) (2022-05-25T11:59:39Z) - Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition [18.924716098922683]
合成データによる機械学習は、合成データと実際のデータ分布のギャップのため、簡単ではない。
本稿では,分散ギャップに起因する問題を緩和するために,トレーニング中の2つの新しい手法を提案する。
これらの手法は,合成データを用いた音声認識モデルの訓練を著しく改善することを示す。
論文 参考訳(メタデータ) (2021-10-21T21:11:42Z) - Empirical Error Modeling Improves Robustness of Noisy Neural Sequence
Labeling [26.27504889360246]
本稿では,誤りのないテキストから誤文への変換を訓練したシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。
テキスト入力が不完全である場合にさらに悪化するデータ空間の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。
提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。
論文 参考訳(メタデータ) (2021-05-25T12:15:45Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。