論文の概要: HTEC: Human Transcription Error Correction
- arxiv url: http://arxiv.org/abs/2309.10089v1
- Date: Mon, 18 Sep 2023 19:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 17:58:48.180687
- Title: HTEC: Human Transcription Error Correction
- Title(参考訳): HTEC:人間の転写誤り訂正
- Authors: Hanbo Sun, Jian Gao, Xiaomin Wu, Anjie Fang, Cheng Cao, Zheng Du
- Abstract要約: 高品質な人間の転写は、自動音声認識(ASR)モデルの訓練と改善に不可欠である。
人間の転写誤り訂正のためのHTECを提案する。
HTECは、誤った単語を予測しマスクするエラー検出モデルであるTrans-Checkerと、マスクされた位置を埋めるシーケンス対シーケンス生成モデルであるTrans-Fillerの2つのステージで構成されている。
- 参考スコア(独自算出の注目度): 4.241671683889168
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-quality human transcription is essential for training and improving
Automatic Speech Recognition (ASR) models. Recent study~\cite{libricrowd} has
found that every 1% worse transcription Word Error Rate (WER) increases
approximately 2% ASR WER by using the transcriptions to train ASR models.
Transcription errors are inevitable for even highly-trained annotators.
However, few studies have explored human transcription correction. Error
correction methods for other problems, such as ASR error correction and
grammatical error correction, do not perform sufficiently for this problem.
Therefore, we propose HTEC for Human Transcription Error Correction. HTEC
consists of two stages: Trans-Checker, an error detection model that predicts
and masks erroneous words, and Trans-Filler, a sequence-to-sequence generative
model that fills masked positions. We propose a holistic list of correction
operations, including four novel operations handling deletion errors. We
further propose a variant of embeddings that incorporates phoneme information
into the input of the transformer. HTEC outperforms other methods by a large
margin and surpasses human annotators by 2.2% to 4.5% in WER. Finally, we
deployed HTEC to assist human annotators and showed HTEC is particularly
effective as a co-pilot, which improves transcription quality by 15.1% without
sacrificing transcription velocity.
- Abstract(参考訳): 高品質な人間の転写は、自動音声認識(ASR)モデルの訓練と改善に不可欠である。
最近の研究 -\cite{libricrowd} では、1% の悪い転写語誤り率 (wer) がおよそ2%のasr werを増加させ、asrモデルを訓練することを発見した。
高度に訓練されたアノテータでも、転写エラーは避けられない。
しかし、ヒトの転写の修正を調査する研究はほとんどない。
ASRの誤り訂正や文法的誤り訂正のような他の問題に対する誤り訂正法は、この問題に対して十分な性能を発揮できない。
そこで我々は,HTECによる誤り訂正を提案する。
HTECは、誤った単語を予測しマスクするエラー検出モデルであるTrans-Checkerと、マスクされた位置を埋めるシーケンス対シーケンス生成モデルであるTrans-Fillerの2つのステージで構成されている。
本稿では,削除エラーを扱う4つの新しい操作を含む補正操作の包括的リストを提案する。
さらに,変圧器の入力に音素情報を組み込んだ組込み方式を提案する。
HTECは、他の手法を大きなマージンで上回り、WERの2.2%から4.5%を上回ります。
最後に,ヒトアノテータを補助するためにHTECを配備し,HTECは転写速度を犠牲にすることなく転写品質を15.1%向上させるコパイロットとして特に有効であることを示した。
関連論文リスト
- UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction [18.97378605403447]
ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。
パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
論文 参考訳(メタデータ) (2024-01-11T06:30:07Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Human Transcription Quality Improvement [2.24166568188073]
本稿では,ラベリング段階における信頼度推定に基づく再処理と,ポストラベル段階における自動単語誤り訂正という,転写品質向上のための2つのメカニズムを提案する。
LibriCrowd - 大規模なクラウドソースによる、100時間の英語音声の音声書き起こしデータセット。
論文 参考訳(メタデータ) (2023-09-24T03:39:43Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Progressive Multi-task Learning Framework for Chinese Text Error
Correction [23.7312706036521]
Chinese Text Error Correction (CTEC) は、入力テキスト中のエラーを検出し、修正することを目的としている。
従来のアプローチは、過度な補正と過度な補正の問題に悩まされていた。
本稿では,CTECのための新しいモデルに依存しないプログレッシブマルチタスク学習フレームワークProTECを提案する。
論文 参考訳(メタデータ) (2023-06-30T07:44:49Z) - ASR Error Detection via Audio-Transcript entailment [1.3750624267664155]
音声書き起こしエンターメントを用いたASR誤り検出のためのエンドツーエンドアプローチを提案する。
提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。
提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。
論文 参考訳(メタデータ) (2022-07-22T02:47:15Z) - Automatic Correction of Human Translations [8.137198664755598]
人為的な翻訳を自動的に修正するタスクである翻訳誤り訂正(TEC)を導入する。
TECのヒューマンエラーは、自動編集後データセットのMTエラーよりも多種多様なエラーを示し、翻訳エラーははるかに少ないことを示す。
論文 参考訳(メタデータ) (2022-06-17T07:30:55Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。