論文の概要: Beyond Single Ground Truth: Reference Monism as Epistemic Injustice in ASR Evaluation
- arxiv url: http://arxiv.org/abs/2605.07084v1
- Date: Fri, 08 May 2026 01:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.707603
- Title: Beyond Single Ground Truth: Reference Monism as Epistemic Injustice in ASR Evaluation
- Title(参考訳): 単一地真理を超えて--ASR評価における疫学的不正としてのモニズム-
- Authors: Anna Seo Gyeong Choi, Maria Teleki, James Caverlee, Miguel del Rio, Corey Miller, Hoon Choi,
- Abstract要約: 音声認識評価は、システム出力と接地真理文字との比較を行う。
地上の真実の書き起こしは、慣例に従って人間の注釈者によって作成される。
異なる規則は同一の音声の異なる書き起こしを生成し、同じASR出力を異なる方法で判断する。
- 参考スコア(独自算出の注目度): 16.139977464093743
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic speech recognition (ASR) evaluation compares system output to ground truth transcripts, with Word Error Rate (WER) quantifying the distance between them. But ground truth transcripts are not discovered - they are produced by human annotators following conventions that encode normative assumptions about which speech features matter. Different conventions (verbatim, non-verbatim, legal) produce different transcripts of identical speech and judge the same ASR output differently. This paper argues that reference monism - enforcing a single transcription convention as ground truth - commits epistemic injustice. Speakers with aphasia, whose speech includes clinically meaningful disfluencies, are systematically disadvantaged when evaluated against "clean" references that treat those disfluencies as errors. The harm is not merely differential performance, but that evaluative infrastructure lacks interpretive resources to recognize their contributions as legitimate. We develop a philosophical framework introducing the hermeneutical gap, formalize Epistemic Injustice Distance (EID) to measure reference monism's cost, and demonstrate empirically using AphasiaBank that WER varies depending on which convention defines ground truth. We propose WER-Range: reporting performance across legitimate conventions rather than assuming a single correct answer.
- Abstract(参考訳): 自動音声認識 (ASR) 評価は, システム出力と接地真実書き起こしを比較し, 単語誤り率 (WER) を定量的に評価する。
しかし、基礎的な真実の書き起こしは見つからない - 音声の特徴に関する規範的な仮定を符号化する慣習に従って、人間の注釈者が生成する。
異なる慣習(言語、非言語、法的)は同一の音声の異なる書き起こしを生成し、同じASR出力を異なる方法で判断する。
本論では, 単一転写規則を基本事実とする参照モニズムは, 疫学的な不正を犯していると主張している。
臨床的に有意な不一致を含む失語症の話者は、これらの不一致を誤りとして扱う「クリーン」参照に対して評価すると、体系的に不利になる。
害は単なる差分性能ではなく、その評価インフラは彼らの貢献を正当なものと認識するための解釈資源を欠いている。
我々は, 医療的ギャップを導入した哲学的枠組みを開発し, 基準モニズムのコストを測定するために, 疫学的不公平距離(EID)を定式化し, そして, WERが根本真理を定義する規約によって異なることを実証的に示す。
We propose WER-Range: reporting performance across legitimate conventions instead as a single correct answer。
関連論文リスト
- HATS: An Open data set Integrating Human Perception Applied to the Evaluation of Automatic Speech Recognition Metrics [11.326630899294004]
本稿では,ASRシステムによって生成される転写誤りの人間の知覚の観点から,フランス語で手動で注釈付きデータセットを提示する。
本研究では,ヒトの嗜好とASR評価指標との関係について検討した。
論文 参考訳(メタデータ) (2026-04-30T07:48:20Z) - Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches [28.79400870481616]
1)既存のメトリクスは知性を十分に反映していない、(2)LSMはASR出力を洗練できるが、ASR書き起こしの修正の有効性は過小評価されている。
本稿では,自然言語推論(NLI)スコア,意味的類似性,音韻的類似性を組み合わせた新しいメトリクスを提案する。
我々のASR評価基準は,音声アクセシビリティプロジェクトデータにおける人間の判断と0.890の相関を達成し,従来の手法を超越し,誤りに基づく尺度よりもインテリジェンスを優先する必要性を強調した。
論文 参考訳(メタデータ) (2025-06-19T18:21:19Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Evaluating context-invariance in unsupervised speech representations [15.67794428589585]
現在のベンチマークでは文脈不変性は測定されていない。
我々は文脈不変性を測定するZeroSpeech ABXベンチマークの新バージョンを開発する。
表現の文脈依存性は単語レベルの表現の安定性の予測であることを示す。
論文 参考訳(メタデータ) (2022-10-27T21:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。