Fugu-MT 論文翻訳(概要): Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

論文の概要: Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography

arxiv url: http://arxiv.org/abs/2603.05267v1
Date: Thu, 05 Mar 2026 15:16:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.290122
Title: Beyond Word Error Rate: Auditing the Diversity Tax in Speech Recognition through Dataset Cartography
Title（参考訳）: 単語誤り率を超えて:データセット・カルトグラフィーによる音声認識における多様性税の検討
Authors: Ting-Hui Cheng, Line H. Clemmensen, Sneha Das,
Abstract要約: そこで本研究では,本質的な人口動態と音響要因がモデル故障の原因となることを示す新しい指標であるサンプル難易度指標(SDI)を紹介する。私たちの発見は、将来的な安全分析のための堅牢な監査フレームワークへの第一歩であり、開発者はデプロイ前に監査とASRの格差を監査できるようにします。
参考スコア（独自算出の注目度）: 6.93939291118954
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic speech recognition (ASR) systems are predominantly evaluated using the Word Error Rate (WER). However, raw token-level metrics fail to capture semantic fidelity and routinely obscures the `diversity tax', the disproportionate burden on marginalized and atypical speaker due to systematic recognition failures. In this paper, we explore the limitations of relying solely on lexical counts by systematically evaluating a broader class of non-linear and semantic metrics. To enable rigorous model auditing, we introduce the sample difficulty index (SDI), a novel metric that quantifies how intrinsic demographic and acoustic factors drive model failure. By mapping SDI on data cartography, we demonstrate that metrics EmbER and SemDist expose hidden systemic biases and inter-model disagreements that WER ignores. Finally, our findings are the first steps towards a robust audit framework for prospective safety analysis, empowering developers to audit and mitigate ASR disparities prior to deployment.
Abstract（参考訳）: 音声認識システム(ASR)はワード誤り率(WER)を用いて主に評価される。しかし、生のトークンレベルのメトリクスは意味的忠実さを捉えることができず、体系的な認識障害により、疎外化および非定型話者に対する不均等な負担である「多様性税」を日常的に隠蔽する。本稿では,より広範な非線形および意味的メトリクスのクラスを体系的に評価することにより,語彙数のみに依存する限界について検討する。厳密なモデル監査を実現するために,本研究では,本質的な人口動態と音響的要因がモデル故障を誘発するかを定量化する新しい指標であるサンプル難易度指標(SDI)を導入する。データ地図上でSDIをマッピングすることにより、EmbERとSemDistは、WERが無視する隠されたシステムバイアスとモデル間不一致を隠蔽することを示した。最後に、我々の発見は、将来的な安全分析のための堅牢な監査フレームワークへの第一歩であり、開発者はデプロイ前にASRの格差を監査し緩和することができる。

関連論文リスト

The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文参考訳（メタデータ） (2026-02-19T06:56:01Z)
Hallucination Benchmark for Speech Foundation Models [33.92968426403491]
自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
論文参考訳（メタデータ） (2025-10-18T16:26:16Z)
Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty-Based Phoneme Difficulty Score for Guided Sampling [2.0128859854921743]
本研究では,音素レベルの不確実性を定量化し,微調整を誘導するデータ効率のパーソナライズ手法を提案する。モデルが最も困難な音素を推定するためにモンテカルロ・ドロップアウトを利用する。以上の結果から,この臨床的に検証された不確実性誘導サンプリングは,ASRの精度を著しく向上させ,パーソナライズおよび包括的ASRのための実践的枠組みを提供することが示唆された。
論文参考訳（メタデータ） (2025-09-23T12:54:30Z)
Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia [0.5242869847419834]
監査人は、データ前処理中に単一のテキスト標準化手法に固執することが多い。第3に、監査はしばしば単一のゴールド標準指標であるWord Error Rateに依存している。これら3つの落とし穴を考慮に入れた,より包括的な監査フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T14:34:36Z)
Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。 RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。 AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)
Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。 STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文参考訳（メタデータ） (2024-05-23T04:27:11Z)
Toward Practical Automatic Speech Recognition and Post-Processing: a Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文参考訳（メタデータ） (2024-01-26T03:42:45Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Uncertainty Estimation by Fisher Information-based Evidential Deep Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文参考訳（メタデータ） (2023-03-03T16:12:59Z)
Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。 i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文参考訳（メタデータ） (2021-05-23T01:50:44Z)
Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文参考訳（メタデータ） (2021-04-01T03:21:57Z)
Exploiting Sample Uncertainty for Domain Adaptive Person Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文参考訳（メタデータ） (2020-12-16T04:09:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。