Fugu-MT 論文翻訳(概要): Toward Practical Automatic Speech Recognition and Post-Processing: a Call for Explainable Error Benchmark Guideline

論文の概要: Toward Practical Automatic Speech Recognition and Post-Processing: a Call for Explainable Error Benchmark Guideline

arxiv url: http://arxiv.org/abs/2401.14625v1
Date: Fri, 26 Jan 2024 03:42:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 16:01:44.250294
Title: Toward Practical Automatic Speech Recognition and Post-Processing: a Call for Explainable Error Benchmark Guideline
Title（参考訳）: 自動音声認識と後処理の実践に向けて:説明可能なベンチマークガイドライン
Authors: Seonmin Koo, Chanjun Park, Jinsung Kim, Jaehyung Seo, Sugyeong Eo, Hyeonseok Moon, Heuiseok Lim
Abstract要約: 本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
参考スコア（独自算出の注目度）: 12.197453599489963
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic speech recognition (ASR) outcomes serve as input for downstream tasks, substantially impacting the satisfaction level of end-users. Hence, the diagnosis and enhancement of the vulnerabilities present in the ASR model bear significant importance. However, traditional evaluation methodologies of ASR systems generate a singular, composite quantitative metric, which fails to provide comprehensive insight into specific vulnerabilities. This lack of detail extends to the post-processing stage, resulting in further obfuscation of potential weaknesses. Despite an ASR model's ability to recognize utterances accurately, subpar readability can negatively affect user satisfaction, giving rise to a trade-off between recognition accuracy and user-friendliness. To effectively address this, it is imperative to consider both the speech-level, crucial for recognition accuracy, and the text-level, critical for user-friendliness. Consequently, we propose the development of an Error Explainable Benchmark (EEB) dataset. This dataset, while considering both speech- and text-level, enables a granular understanding of the model's shortcomings. Our proposition provides a structured pathway for a more `real-world-centric' evaluation, a marked shift away from abstracted, traditional methods, allowing for the detection and rectification of nuanced system weaknesses, ultimately aiming for an improved user experience.
Abstract（参考訳）: 自動音声認識(asr)の結果は下流タスクの入力となり、エンドユーザの満足度に大きく影響する。したがって、ASRモデルに存在する脆弱性の診断と強化は重要な意味を持つ。しかし、asrシステムの伝統的な評価手法は、特定の脆弱性に対する包括的な洞察を提供しない特異で複合的な定量的指標を生成する。この詳細の欠如は後処理の段階にまで広がり、潜在的な弱点をさらに難読化させる。 ASRモデルの発話を正確に認識する能力にもかかわらず、サブパー可読性はユーザの満足度に悪影響を及ぼし、認識精度とユーザフレンドリ性のトレードオフを引き起こす。この課題を効果的に解決するには、認識精度に不可欠な発話レベルと、ユーザフレンドリーに不可欠なテキストレベルの両方を考慮することが不可欠である。その結果,Error Explainable Benchmark (EEB) データセットの開発を提案する。このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。この提案は,より‘現実世界中心’な評価のための構造化された経路を提供し,抽象化された従来の手法から大きく移行することで,ニュアンスシステムの弱点の検出と修正を可能にし,最終的にはユーザエクスペリエンスの向上を目標としている。

関連論文リスト

Reward-Driven Interaction: Enhancing Proactive Dialogue Agents through User Satisfaction Prediction [22.105598216923706]
本稿では,ユーザの発話の表現学習を改善するための2つの補助的タスクと,ユーザの満足度を予測するセッションを提案する。提案手法はDuerOS上で評価され、希少なユーザ発話や長い尾領域における誤り認識の精度が大幅に向上した。
論文参考訳（メタデータ） (2025-05-24T15:01:30Z)
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
Unveiling Hidden Factors: Explainable AI for Feature Boosting in Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、メンタルヘルス、教育、人間とコンピュータの相互作用など、いくつかの応用分野から注目されている。本研究では,機械学習モデルの性能向上のための特徴関連性と説明可能性を強調した,SERの反復的特徴増強手法を提案する。提案手法の有効性をトロントの感情音声セット(TESS)、ベルリンの感情音声データベース(EMO-DB)、Ryersonの感情音声データベース(RAVDESS)、Surrey Audio-Visual Expressed Emotioned Emotion(SAVEE)データセットのSERベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-01T00:39:55Z)
Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech [0.0]
音声認識システムは、典型的な流布から逸脱した音声パターンを正確に解釈することができず、重要なユーザビリティの問題や誤解釈につながる。本研究は6つの主要なASRを解析し,発話サンプルの実際のデータセットと,広範に使用されているLibriSpeechベンチマークから得られた合成データセットを解析した。結果より,すべてのASRにおいて,非流動性音声に対する一貫した,統計的に有意な精度バイアスがみられ,転写における意味的不正確性や意味的不正確性がみられた。
論文参考訳（メタデータ） (2024-05-10T00:16:58Z)
DEE: Dual-stage Explainable Evaluation Method for Text Generation [21.37963672432829]
テキスト生成の品質を推定するための2段階説明可能な評価手法であるDEEを紹介する。 Llama 2 上に構築された DEE は、生成したテキスト中のエラーの効率的な識別を行うためのステージ固有の命令によって導かれる2段階の原理に従う。このデータセットは、幻覚や毒性などの新たな問題に対処し、DEEの評価基準の範囲を広げる。
論文参考訳（メタデータ） (2024-03-18T06:30:41Z)
Word-Level ASR Quality Estimation for Efficient Corpus Sampling and Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。 NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文参考訳（メタデータ） (2024-01-20T16:48:55Z)
Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-01-09T05:16:52Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
Uncertainty Estimation by Fisher Information-based Evidential Deep Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文参考訳（メタデータ） (2023-03-03T16:12:59Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)
Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding [28.441725610692714]
本稿では,ASRの誤りに対して頑健な発話表現を,対照的な目的を用いて学習することに焦点を当てる。 3つのベンチマークデータセットの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-05-02T07:21:21Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。