論文の概要: TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and
Punctuation model evaluation and selection
- arxiv url: http://arxiv.org/abs/2210.15104v1
- Date: Thu, 27 Oct 2022 01:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:55:03.975057
- Title: TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and
Punctuation model evaluation and selection
- Title(参考訳): TRScore: ASRセグメンテーションと句読解モデル評価と選択のための新しいGPTベースの可読性スコーラ
- Authors: Piyush Behre, Sharman Tan, Amy Shah, Harini Kesavamoorthy, Shuangyu
Chang, Fei Zuo, Chris Basoglu, Sayan Pathak
- Abstract要約: 自動音声認識における読みやすさの鍵は、触覚と可読性である。
人間の評価は高価で時間がかかり、サーバ間の大きな変動に悩まされる。
本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。
- 参考スコア(独自算出の注目度): 1.4720080476520687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Punctuation and Segmentation are key to readability in Automatic Speech
Recognition (ASR), often evaluated using F1 scores that require high-quality
human transcripts and do not reflect readability well. Human evaluation is
expensive, time-consuming, and suffers from large inter-observer variability,
especially in conversational speech devoid of strict grammatical structures.
Large pre-trained models capture a notion of grammatical structure. We present
TRScore, a novel readability measure using the GPT model to evaluate different
segmentation and punctuation systems. We validate our approach with human
experts. Additionally, our approach enables quantitative assessment of text
post-processing techniques such as capitalization, inverse text normalization
(ITN), and disfluency on overall readability, which traditional word error rate
(WER) and slot error rate (SER) metrics fail to capture. TRScore is strongly
correlated to traditional F1 and human readability scores, with Pearson's
correlation coefficients of 0.67 and 0.98, respectively. It also eliminates the
need for human transcriptions for model selection.
- Abstract(参考訳): 句読点とセグメンテーションは、自動音声認識(asr)における可読性の鍵であり、しばしば高品質な人間の書き起こしを必要とし、可読性をよく反映しないf1スコアを用いて評価される。
人間の評価は高価であり、時間を要するため、特に厳密な文法構造を持たない会話音声では、サーバ間の変動が大きい。
大きな事前訓練されたモデルは文法構造の概念を捉えている。
本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。
我々は人間の専門家によるアプローチを検証する。
さらに,従来の単語誤り率 (WER) とスロット誤り率 (SER) の指標が捕捉できない全体の可読性に対する,大文字化,逆テキスト正規化 (ITN) などのテキスト後処理手法の定量的評価を可能にする。
TRScoreは従来のF1とヒトの可読性スコアと強く相関しており、ピアソンの相関係数はそれぞれ0.67と0.98である。
また、モデル選択のための人間の転写の必要性をなくす。
関連論文リスト
- Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - Assessing ASR Model Quality on Disordered Speech using BERTScore [5.489867271342724]
単語誤り率(WER)は、自動音声認識(ASR)モデルの品質を評価するために使われる主要な指標である。
ASRモデルは、典型的な英語話者よりも、音声障害のある話者に対してWERがはるかに高い傾向にあることが示されている。
本研究では,テキスト生成のための評価指標であるBERTScoreを用いて,ASRモデルの品質と有用性について,より有益な指標を提供する。
論文 参考訳(メタデータ) (2022-09-21T18:33:33Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Automated Evaluation of Standardized Dementia Screening Tests [0.18472148461613155]
半標準化された歴史と2つの標準化された神経心理学的テストからなる研究について報告する。
テストには、名前オブジェクトや単語リストの学習といった基本的なタスクだけでなく、MMSEのような広く使われているツールも含まれている。
単語代替語を用いることで、認識誤りを軽減し、その後、専門家のスコアとの相関性を改善することが示される。
論文 参考訳(メタデータ) (2022-06-13T14:41:27Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。