Fugu-MT 論文翻訳(概要): Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System

論文の概要: Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System

arxiv url: http://arxiv.org/abs/2305.10680v2
Date: Thu, 25 May 2023 02:26:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 19:49:34.646448
Title: Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System
Title（参考訳）: 非自己回帰型エンドツーエンド音声認識システムによる信頼度推定
Authors: Xian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan
Abstract要約: 従来のエンドツーエンド(E2E)ベースの信頼度推定モデル(CEM)は、入力書き起こしと等しい長さのスコアシーケンスを予測する。本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するために,CIF-Aligned confidence Estimation Model (CA-CEM)を提案する。
参考スコア（独自算出の注目度）: 42.569506907182706
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Estimating confidence scores for recognition results is a classic task in ASR field and of vital importance for kinds of downstream tasks and training strategies. Previous end-to-end~(E2E) based confidence estimation models (CEM) predict score sequences of equal length with input transcriptions, leading to unreliable estimation when deletion and insertion errors occur. In this paper we proposed CIF-Aligned confidence estimation model (CA-CEM) to achieve accurate and reliable confidence estimation based on novel non-autoregressive E2E ASR model - Paraformer. CA-CEM utilizes the modeling character of continuous integrate-and-fire (CIF) mechanism to generate token-synchronous acoustic embedding, which solves the estimation failure issue above. We measure the quality of estimation with AUC and RMSE in token level and ECE-U - a proposed metrics in utterance level. CA-CEM gains 24% and 19% relative reduction on ECE-U and also better AUC and RMSE on two test sets. Furthermore, we conduct analysis to explore the potential of CEM for different ASR related usage.
Abstract（参考訳）: 認識結果の信頼度を推定することは、ASR分野における古典的な課題であり、下流のタスクやトレーニング戦略にとって重要な課題である。前回のエンドツーエンド～(e2e)ベースの信頼度推定モデル(cem)は、入力された書き起こしと等しい長さのスコアシーケンスを予測する。本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するためのCIF-Aligned confidence Estimation Model (CA-CEM) を提案する。 CA-CEMは、CIF(Continuous Integration-and-fire)メカニズムのモデリング特性を利用してトークン同期音響埋め込みを生成し、上記の推定失敗問題を解く。本稿では,トークンレベルにおけるAUCとRMSEによる推定精度と,発話レベルにおけるECE-Uの指標を提案する。 CA-CEMはECE-UとAUCとRMSEの2つのテストセットで24%と19%の相対的な減少率を得た。さらに、我々は、異なるASR関連用途におけるCEMの可能性を探るために分析を行う。

関連論文リスト

A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models [6.62851757612838]
大規模言語モデル(LLM)に対する現在の信頼度推定法は,応答と文脈情報の関連性を無視する。本稿では,2つの新しい指標を用いた信頼度推定のためのコンテキスト忠実度と一貫性を統合したCRUXを提案する。 3つのベンチマークデータセットに対する実験は、CRUXの有効性を示し、既存のベースラインよりも高いAUROCを達成した。
論文参考訳（メタデータ） (2025-08-01T12:58:34Z)
Trust, or Don't Predict: Introducing the CWSA Family for Confidence-Aware Model Evaluation [0.0]
信頼性重み付き選択精度(CWSA)と正規化変種CWSA+を紹介する。 CWSAは、信頼しきい値の下で予測モデルを評価するための原則的で解釈可能な方法を提供する。 CWSAとCWSA+は、信頼度の高いテストにおいて、ニュアンスド障害モードを効果的に検出し、古典的な指標より優れていることを示す。
論文参考訳（メタデータ） (2025-05-24T10:07:48Z)
ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。 LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文参考訳（メタデータ） (2025-05-08T01:40:40Z)
Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文参考訳（メタデータ） (2024-11-04T18:49:46Z)
Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [65.8478860180793]
イベント抽出は広範囲の応用により、広範囲の研究が注目されている。イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。イベント抽出のための信頼性とセマンティックな評価フレームワークであるRAEEを提案する。
論文参考訳（メタデータ） (2024-10-12T07:54:01Z)
Confidence Estimation for LLM-Based Dialogue State Tracking [9.305763502526833]
大規模言語モデル(LLM)に基づく会話型AIシステムでは,モデルの出力に対する信頼度の推定が重要である。オープン・アンド・クローズド・ウェイト LLM に提案するアプローチを含む,手法の徹底的な探索を行う。以上の結果から, 微調整式オープンウェイトLLMはAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
論文参考訳（メタデータ） (2024-09-15T06:44:26Z)
Improving EO Foundation Models with Confidence Assessment for enhanced Semantic segmentation [0.0]
我々は,拡張セマンティックセグメンテーション(CAS)モデルのための信頼度評価法を開発した。セグメントレベルとピクセルレベルの両方の信頼度を評価し、ラベルと信頼スコアの両方を出力として提供する。この研究は、特にセマンティックセグメンテーションの下流タスクにおけるEOファンデーションモデルの評価において重要な応用がある。
論文参考訳（メタデータ） (2024-06-26T12:05:49Z)
TeLeS: Temporal Lexeme Similarity Score to Estimate Confidence in End-to-End ASR [1.8477401359673709]
クラス確率に基づく信頼スコアは、自信過剰なASR予測の品質を正確に表すものではない。信頼度推定モデル(CEM)を訓練するためのTeLeS(Temporal-Lexeme similarity)の信頼性スコアを提案する。我々は、ヒンディー語、タミル語、カナダ語という3つの言語で訓練されたASRモデルを用いて、様々なトレーニングデータサイズで実験を行う。
論文参考訳（メタデータ） (2024-01-06T16:29:13Z)
BLSTM-Based Confidence Estimation for End-to-End Speech Recognition [41.423717224691046]
信頼度推定は自動音声認識(ASR)アプリケーションを開発する上で重要な機能である。最近のE2E ASRシステムは、様々なASRタスクに対して高い性能(例えば、5%のトークンエラー率)を示す。我々は,双方向長短期メモリ(BLSTM)をベースとした強力なバイナリクラス(誤り/誤り/誤)シークエンスラベラとして採用する。
論文参考訳（メタデータ） (2023-12-22T11:12:45Z)
Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error [50.86671887712424]
ドメイン適応型セマンティックセグメンテーションの流行は、ソースドメインデータの漏洩に関する懸念を引き起こしている。ソースデータの要求を回避するため、ソースフリーなドメイン適応が実現可能なソリューションとして登場した。校正誘導型ソースフリーなドメイン適応型セマンティックセマンティックセマンティクスフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-06T03:28:34Z)
Fast Entropy-Based Methods of Word-Level Confidence Estimation for End-To-End Automatic Speech Recognition [86.21889574126878]
本研究では,フレーム単位のエントロピー値を正規化して集約し,単位単位当たりの信頼度と単語毎の信頼度を求める方法を示す。提案手法をLibriSpeechテストセット上で評価した結果,最大フレーム当たりの信頼度推定値の最大値から,信頼度推定値の最大値の最大値の最大値の最大値の最大値の2倍,4倍の精度を示した。
論文参考訳（メタデータ） (2022-12-16T20:27:40Z)
Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文参考訳（メタデータ） (2022-07-29T07:21:15Z)
Improving Confidence Estimation on Out-of-Domain Data for End-to-End Speech Recognition [25.595147432155642]
本稿では,ドメイン外データに対するモデルに基づく信頼度推定法を改善するための2つの手法を提案する。実験の結果,提案手法はTED-LiumデータセットとSwitchboardデータセットの信頼性指標を大幅に改善できることがわかった。
論文参考訳（メタデータ） (2021-10-07T10:44:27Z)
An evaluation of word-level confidence estimation for end-to-end automatic speech recognition [70.61280174637913]
エンドツーエンド自動音声認識(ASR)における信頼度推定の検討 4つのよく知られた音声データセットにおける信頼度手法の広範なベンチマークを提供する。以上の結果から,ロジットを学習温度でスケーリングすることで,強いベースラインが得られることが示唆された。
論文参考訳（メタデータ） (2021-01-14T09:51:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。