論文の概要: LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models
- arxiv url: http://arxiv.org/abs/2310.02943v1
- Date: Wed, 4 Oct 2023 16:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 14:09:23.361216
- Title: LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models
- Title(参考訳): LibriSpeech-PC:エンドツーエンドASRモデルの変動と資本化能力評価のためのベンチマーク
- Authors: Aleksandr Meister, Matvei Novikov, Nikolay Karpov, Evelina Bakhturina,
Vitaly Lavrukhin, Boris Ginsburg
- Abstract要約: 我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
- 参考スコア(独自算出の注目度): 58.790604613878216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional automatic speech recognition (ASR) models output lower-cased
words without punctuation marks, which reduces readability and necessitates a
subsequent text processing model to convert ASR transcripts into a proper
format. Simultaneously, the development of end-to-end ASR models capable of
predicting punctuation and capitalization presents several challenges,
primarily due to limited data availability and shortcomings in the existing
evaluation methods, such as inadequate assessment of punctuation prediction. In
this paper, we introduce a LibriSpeech-PC benchmark designed to assess the
punctuation and capitalization prediction capabilities of end-to-end ASR
models. The benchmark includes a LibriSpeech-PC dataset with restored
punctuation and capitalization, a novel evaluation metric called Punctuation
Error Rate (PER) that focuses on punctuation marks, and initial baseline
models. All code, data, and models are publicly available.
- Abstract(参考訳): 従来の自動音声認識(ASR)モデルは句読点のない小文字を出力し、読みやすさを減らし、その後のテキスト処理モデルを必要とする。
同時に、句読点と資本化を予測できるエンドツーエンドのASRモデルの開発は、データ可用性の制限や、句読点予測の不適切な評価など、既存の評価手法の欠点など、いくつかの課題を提起している。
本稿では,終末ASRモデルの句読点と大文字化予測能力を評価するためのLibriSpeech-PCベンチマークを提案する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
すべてのコード、データ、モデルが公開されている。
関連論文リスト
- Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and
Punctuation model evaluation and selection [1.4720080476520687]
自動音声認識における読みやすさの鍵は、触覚と可読性である。
人間の評価は高価で時間がかかり、サーバ間の大きな変動に悩まされる。
本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。
論文 参考訳(メタデータ) (2022-10-27T01:11:32Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Discriminative Self-training for Punctuation Prediction [5.398944179152948]
自動音声認識(ASR)出力トランスクリプトの発音予測は、ASRトランスクリプトの可読性向上に重要な役割を果たします。
句読点予測の性能向上には,大量のラベル付き音声書き起こしが必要となることが多い。
重み付き損失と識別ラベル平滑化を用いた識別的自己学習手法を提案する。
論文 参考訳(メタデータ) (2021-04-21T03:32:47Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。