Fugu-MT 論文翻訳(概要): HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics

論文の概要: HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics

arxiv url: http://arxiv.org/abs/2604.27542v2
Date: Tue, 05 May 2026 13:10:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-06 14:45:21.144156
Title: HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics
Title（参考訳）: HATS:人間の知覚を統合したオープンデータセットによる音声認識メトリクスの評価
Authors: Thibault Bañeras Roux, Jane Wottawa, Mickael Rouvier, Teva Merlin, Richard Dufour,
Abstract要約: 本稿では,ASRシステムによって生成される転写誤りの人間の知覚の観点から,フランス語で手動で注釈付きデータセットを提示する。本研究では,ヒトの嗜好とASR評価指標との関係について検討した。
参考スコア（独自算出の注目度）: 11.326630899294004
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conventionally, Automatic Speech Recognition (ASR) systems are evaluated on their ability to correctly recognize each word contained in a speech signal. In this context, the word error rate (WER) metric is the reference for evaluating speech transcripts. Several studies have shown that this measure is too limited to correctly evaluate an ASR system, which has led to the proposal of other variants of metrics (weighted WER, BERTscore, semantic distance, etc.). However, they remain system-oriented, even when transcripts are intended for humans. In this paper, we firstly present Human Assessed Transcription Side-by-side (HATS), an original French manually annotated data set in terms of human perception of transcription errors produced by various ASR systems. 143 humans were asked to choose the best automatic transcription out of two hypotheses. We investigated the relationship between human preferences and various ASR evaluation metrics, including lexical and embedding-based ones, the latter being those that correlate supposedly the most with human perception.
Abstract（参考訳）: 従来,音声認識(ASR)システムは,音声信号に含まれる各単語を正しく認識する能力に基づいて評価されてきた。この文脈では、単語誤り率(WER)は、音声の書き起こしを評価するための基準である。いくつかの研究は、この尺度がASRシステムを正しく評価するにはあまりに限られていることを示しており、これは他の指標(重み付きWER、BERTscore、意味距離など)の提案につながっている。しかし、人間向けの写本であっても、システム指向のままである。本稿では、まず、ASRシステムによって生成される転写誤りの人間の知覚の観点から、フランス語で手書きの注釈付きデータセットであるHuman Assessed Transcription Side-by-side(HATS)を提示する。 143人の人間が2つの仮説から最高の自動転写を選択するように求められた。ヒトの嗜好と各種ASR評価指標との関係について検討した。

関連論文リスト

Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition [52.63676763985825]
トークンレベルの精度を超えた認識品質を評価するための意味認識評価指標を提案する。我々は,人間のようなマルチターンインタラクションをシミュレートするエージェント・フレームワークを設計し,認識出力の反復的改善を可能にする。対話型およびエージェント型ASRにおける今後の研究を促進するためのコードをリリースする。
論文参考訳（メタデータ） (2026-04-10T09:02:42Z)
A Benchmark of French ASR Systems Based on Error Severity [6.657432034629865]
誤りを4つの重大度に分類する新たな評価法を提案する。この基準は、フランス語で10の最先端のASRシステムのベンチマークに適用される。
論文参考訳（メタデータ） (2025-01-18T21:07:18Z)
Quantification of stylistic differences in human- and ASR-produced transcripts of African American English [1.8021379035665333]
動詞と非動詞の区別は、ASRのパフォーマンス評価において重要な役割を果たす。アフリカン・アメリカン・イングリッシュ・スピーチの10時間における6つの転写版と4つのASRと2つのASRのスタイリスティックな違いを分類した。本稿では,これらのカテゴリ間の相互作用と,単語誤り率による書き起こしの精度について検討する。
論文参考訳（メタデータ） (2024-09-04T20:18:59Z)
Automatic Speech Recognition System-Independent Word Error Rate Estimation [23.25173244408922]
単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。本稿では,ASRシステムに依存しないWER推定のための仮説生成手法を提案する。
論文参考訳（メタデータ） (2024-04-25T16:57:05Z)
End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。標準メトリクスは、現れる可能性のある不整合を考慮していない。本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文参考訳（メタデータ） (2023-01-14T15:43:07Z)
BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文参考訳（メタデータ） (2022-12-16T14:00:26Z)
Benchmarking Evaluation Metrics for Code-Switching Automatic Speech Recognition [19.763431520942028]
本研究では,人間の判断によるコードスイッチング音声認識仮説のベンチマークデータセットを開発する。自動仮説の最小化のための明確なガイドラインを定義する。我々は、アラビア語/英語の方言音声におけるコードスイッチング音声認識結果の人間受容のための最初のコーパスをリリースする。
論文参考訳（メタデータ） (2022-11-22T08:14:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。