論文の概要: Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline
- arxiv url: http://arxiv.org/abs/2401.14625v1
- Date: Fri, 26 Jan 2024 03:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:01:44.250294
- Title: Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline
- Title(参考訳): 自動音声認識と後処理の実践に向けて:説明可能なベンチマークガイドライン
- Authors: Seonmin Koo, Chanjun Park, Jinsung Kim, Jaehyung Seo, Sugyeong Eo,
Hyeonseok Moon, Heuiseok Lim
- Abstract要約: 本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
- 参考スコア(独自算出の注目度): 12.197453599489963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) outcomes serve as input for downstream
tasks, substantially impacting the satisfaction level of end-users. Hence, the
diagnosis and enhancement of the vulnerabilities present in the ASR model bear
significant importance. However, traditional evaluation methodologies of ASR
systems generate a singular, composite quantitative metric, which fails to
provide comprehensive insight into specific vulnerabilities. This lack of
detail extends to the post-processing stage, resulting in further obfuscation
of potential weaknesses. Despite an ASR model's ability to recognize utterances
accurately, subpar readability can negatively affect user satisfaction, giving
rise to a trade-off between recognition accuracy and user-friendliness. To
effectively address this, it is imperative to consider both the speech-level,
crucial for recognition accuracy, and the text-level, critical for
user-friendliness. Consequently, we propose the development of an Error
Explainable Benchmark (EEB) dataset. This dataset, while considering both
speech- and text-level, enables a granular understanding of the model's
shortcomings. Our proposition provides a structured pathway for a more
`real-world-centric' evaluation, a marked shift away from abstracted,
traditional methods, allowing for the detection and rectification of nuanced
system weaknesses, ultimately aiming for an improved user experience.
- Abstract(参考訳): 自動音声認識(asr)の結果は下流タスクの入力となり、エンドユーザの満足度に大きく影響する。
したがって、ASRモデルに存在する脆弱性の診断と強化は重要な意味を持つ。
しかし、asrシステムの伝統的な評価手法は、特定の脆弱性に対する包括的な洞察を提供しない特異で複合的な定量的指標を生成する。
この詳細の欠如は後処理の段階にまで広がり、潜在的な弱点をさらに難読化させる。
ASRモデルの発話を正確に認識する能力にもかかわらず、サブパー可読性はユーザの満足度に悪影響を及ぼし、認識精度とユーザフレンドリ性のトレードオフを引き起こす。
この課題を効果的に解決するには、認識精度に不可欠な発話レベルと、ユーザフレンドリーに不可欠なテキストレベルの両方を考慮することが不可欠である。
その結果,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
この提案は,より‘現実世界中心’な評価のための構造化された経路を提供し,抽象化された従来の手法から大きく移行することで,ニュアンスシステムの弱点の検出と修正を可能にし,最終的にはユーザエクスペリエンスの向上を目標としている。
関連論文リスト
- Enhancing Systematic Decompositional Natural Language Inference Using
Informal Logic [53.363888563647976]
我々は,分解包含データセットに注釈を付けるための一貫した理論的なアプローチを開発した。
得られたデータセットRDTEは,従来よりも内部整合性(+9%)が高いことがわかった。
また, 知識蒸留によるRDTE指向エンテーメント分類器の訓練や, 現代のニューロシンボリック推論エンジンへの導入により, 結果が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Word-Level ASR Quality Estimation for Efficient Corpus Sampling and
Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文 参考訳(メタデータ) (2024-01-20T16:48:55Z) - Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive
Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。
提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T05:16:52Z) - A Study on the Reliability of Automatic Dysarthric Speech Assessments [4.377743737361995]
ジステリアアセスメントは、効果的で低コストなツールを開発する機会を提供する。
現在のアプローチが難聴に関連する音声パターンや外的要因に依存しているかどうかは不明である。
論文 参考訳(メタデータ) (2023-06-07T11:04:02Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Calibrate and Refine! A Novel and Agile Framework for ASR-error Robust
Intent Detection [8.842878491315124]
本稿では,2つのプラグ・アンド・プレイモジュールを用いたASRエラー頑健な意図検出のためのCR-IDという新しいフレームワークを提案する。
SNIPSデータセットによる実験結果から,提案するCR-IDフレームワークが競合性能を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T02:54:11Z) - Contrastive Learning for Improving ASR Robustness in Spoken Language
Understanding [28.441725610692714]
本稿では,ASRの誤りに対して頑健な発話表現を,対照的な目的を用いて学習することに焦点を当てる。
3つのベンチマークデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-02T07:21:21Z) - CIF-based Collaborative Decoding for End-to-end Contextual Speech
Recognition [14.815422751109061]
コンテキストバイアスをより制御可能な方法でサポートするCIF(Continuous Integration-and-fire)ベースのモデルを提案する。
追加のコンテキスト処理ネットワークを導入し、コンテキスト埋め込みを抽出し、音響的に関連するコンテキスト情報を統合し、コンテキスト出力分布をデコードする。
提案手法は, 強ベースラインと比較して, 相対的文字誤り率 (CER) の8.83%/21.13%, 相対的名前付きエンティティ文字誤り率 (NE-CER) の40.14%/51.50%削減を実現する。
論文 参考訳(メタデータ) (2020-12-17T09:40:11Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。