論文の概要: Human Transcription Quality Improvement
- arxiv url: http://arxiv.org/abs/2309.14372v1
- Date: Sun, 24 Sep 2023 03:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 16:57:06.007067
- Title: Human Transcription Quality Improvement
- Title(参考訳): 人間の転写品質の改善
- Authors: Jian Gao, Hanbo Sun, Cheng Cao, Zheng Du
- Abstract要約: 本稿では,ラベリング段階における信頼度推定に基づく再処理と,ポストラベル段階における自動単語誤り訂正という,転写品質向上のための2つのメカニズムを提案する。
LibriCrowd - 大規模なクラウドソースによる、100時間の英語音声の音声書き起こしデータセット。
- 参考スコア(独自算出の注目度): 2.24166568188073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High quality transcription data is crucial for training automatic speech
recognition (ASR) systems. However, the existing industry-level data collection
pipelines are expensive to researchers, while the quality of crowdsourced
transcription is low. In this paper, we propose a reliable method to collect
speech transcriptions. We introduce two mechanisms to improve transcription
quality: confidence estimation based reprocessing at labeling stage, and
automatic word error correction at post-labeling stage. We collect and release
LibriCrowd - a large-scale crowdsourced dataset of audio transcriptions on 100
hours of English speech. Experiment shows the Transcription WER is reduced by
over 50%. We further investigate the impact of transcription error on ASR model
performance and found a strong correlation. The transcription quality
improvement provides over 10% relative WER reduction for ASR models. We release
the dataset and code to benefit the research community.
- Abstract(参考訳): 高品質な転写データは自動音声認識(ASR)システムの訓練に不可欠である。
しかし、既存の業界レベルのデータ収集パイプラインは研究者にとって高価であり、クラウドソースによる書き起こしの品質は低い。
本稿では,音声の書き起こしを確実に収集する手法を提案する。
本稿では,ラベリング段階における信頼度推定に基づく再処理と,ポストラベル段階における自動単語誤り訂正という2つの手法を提案する。
LibriCrowd - 大規模なクラウドソースによる、100時間の英語音声の音声書き起こしデータセット。
実験では、転写WERは50%以上削減されている。
さらに,書き起こし誤りがASRモデルの性能に及ぼす影響について検討し,強い相関関係を見出した。
転写品質の改善は、ASRモデルに対して10%以上の相対的なWER削減をもたらす。
研究コミュニティのためにデータセットとコードを公開しています。
関連論文リスト
- Measuring the Accuracy of Automatic Speech Recognition Solutions [4.99320937849508]
音声認識(ASR)は現在、多くの一般的なアプリケーションの一部となっている。
高等教育講座の講義記録を用いて,11種類の一般的なASRサービスの性能を測定した。
以上の結果から,ベンダー間および個々のオーディオサンプルに対して,精度が広範囲に及んでいることが示唆された。
また,ライブイベントに使用されるASRのストリーミング品質も著しく低下した。
論文 参考訳(メタデータ) (2024-08-29T06:38:55Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - HTEC: Human Transcription Error Correction [4.241671683889168]
高品質な人間の転写は、自動音声認識(ASR)モデルの訓練と改善に不可欠である。
人間の転写誤り訂正のためのHTECを提案する。
HTECは、誤った単語を予測しマスクするエラー検出モデルであるTrans-Checkerと、マスクされた位置を埋めるシーケンス対シーケンス生成モデルであるTrans-Fillerの2つのステージで構成されている。
論文 参考訳(メタデータ) (2023-09-18T19:03:21Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Alzheimer Disease Classification through ASR-based Transcriptions:
Exploring the Impact of Punctuation and Pauses [6.053166856632848]
アルツハイマー病(英語: Alzheimer's Disease、AD)は、世界有数の神経変性疾患である。
最近のADReSSチャレンジはAD分類のためのデータセットを提供した。
我々は、新しい最先端自動音声認識(ASR)モデルWhisperを用いて、その書き起こしを得た。
論文 参考訳(メタデータ) (2023-06-06T06:49:41Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - ASR Error Detection via Audio-Transcript entailment [1.3750624267664155]
音声書き起こしエンターメントを用いたASR誤り検出のためのエンドツーエンドアプローチを提案する。
提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。
提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。
論文 参考訳(メタデータ) (2022-07-22T02:47:15Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。