論文の概要: Style-agnostic evaluation of ASR using multiple reference transcripts
- arxiv url: http://arxiv.org/abs/2412.07937v1
- Date: Tue, 10 Dec 2024 21:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:00.279938
- Title: Style-agnostic evaluation of ASR using multiple reference transcripts
- Title(参考訳): 複数参照書き起こしを用いたASRのスタイル依存的評価
- Authors: Quinten McNamara, Miguel Ángel del Río Fernández, Nishchal Bhandari, Martin Ratajczak, Danny Chen, Corey Miller, Migüel Jetté,
- Abstract要約: 我々は、ASRシステムのスタイルに依存しない評価を行うことにより、これらの違いのいくつかを軽減することを試みる。
既存のWERレポートは、最先端のASRシステムによる競合エラーの数を大幅に過大評価している可能性が高い。
- 参考スコア(独自算出の注目度): 0.3066137405373616
- License:
- Abstract: Word error rate (WER) as a metric has a variety of limitations that have plagued the field of speech recognition. Evaluation datasets suffer from varying style, formality, and inherent ambiguity of the transcription task. In this work, we attempt to mitigate some of these differences by performing style-agnostic evaluation of ASR systems using multiple references transcribed under opposing style parameters. As a result, we find that existing WER reports are likely significantly over-estimating the number of contentful errors made by state-of-the-art ASR systems. In addition, we have found our multireference method to be a useful mechanism for comparing the quality of ASR models that differ in the stylistic makeup of their training data and target task.
- Abstract(参考訳): 単語誤り率(WER)は、音声認識の分野を悩ませてきた様々な制限がある。
評価データセットは、書き起こしタスクの様々なスタイル、形式、および固有のあいまいさに悩まされる。
本研究では,ASRシステムに対して,反対のスタイルパラメータで書き起こされた複数の参照を用いて,スタイルに依存しない評価を行うことにより,これらの違いの軽減を試みる。
その結果、既存のWERレポートは、最先端のASRシステムによる競合エラーの数を大幅に過大評価している可能性が示唆された。
さらに,本手法は,トレーニングデータと目標タスクのスタイル的構成が異なるASRモデルの品質を比較する上で,有用なメカニズムであることがわかった。
関連論文リスト
- Quantification of stylistic differences in human- and ASR-produced transcripts of African American English [1.8021379035665333]
動詞と非動詞の区別は、ASRのパフォーマンス評価において重要な役割を果たす。
アフリカン・アメリカン・イングリッシュ・スピーチの10時間における6つの転写版と4つのASRと2つのASRのスタイリスティックな違いを分類した。
本稿では,これらのカテゴリ間の相互作用と,単語誤り率による書き起こしの精度について検討する。
論文 参考訳(メタデータ) (2024-09-04T20:18:59Z) - What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - Useful Blunders: Can Automated Speech Recognition Errors Improve
Downstream Dementia Classification? [9.275790963007173]
自動音声認識システム(ASR)の誤差が認知症分類精度に与える影響について検討した。
ASRが生成した不完全な転写産物が貴重な情報を提供するかどうかを評価することを目的としていた。
論文 参考訳(メタデータ) (2024-01-10T21:38:03Z) - NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition
via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning [0.20999222360659603]
NoRefERは、自動音声認識(ASR)システムのための新しい基準のない品質指標である。
NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。
以上の結果から,NoRefERは基準ベースメトリクスとそのサンプル内ランクと高い相関性を示し,基準のないASR評価やa/bテストの可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T21:26:19Z) - Explanations for Automatic Speech Recognition [9.810810252231812]
音声フレームのサブセットとして、ASR転写の説明を提供する。
我々は,画像分類-統計的故障局所化(SFL)とCausalから既存の説明可能なAI技術を適用した。
提案手法は,3種類のASR,Google API,Sphinx,Deepspeechのベースラインモデル,およびCommonvoiceデータセットから得られた100のオーディオサンプルに対して,提案手法による説明の質を評価する。
論文 参考訳(メタデータ) (2023-02-27T11:09:19Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。