論文の概要: Proactive for Uncertainty: Cause-Aware Error Diagnosis and Interactive Clarification for Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2605.25404v1
- Date: Mon, 25 May 2026 03:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.280636
- Title: Proactive for Uncertainty: Cause-Aware Error Diagnosis and Interactive Clarification for Spoken Dialogue Systems
- Title(参考訳): 不確実性への積極的な対応:音声対話システムにおける原因認識誤りの診断と対話的解明
- Authors: Yizhou Peng, Ziyang Ma, Changsong Liu, Yi-Wen Chao, Xie Chen, Eng Siong Chng,
- Abstract要約: 本稿では,SDSにおけるロバスト性を根本的に再考する原因認識型エラー回復パラダイムを提案する。
従来の信頼度フィルタリングとは異なり、我々は小さな精度に焦点を絞った検出器群を導入している。
この微細な診断知能は、LLMがターゲットとするマルチターンの明確化戦略を編成する権限を与える。
- 参考スコア(独自算出の注目度): 40.265250435329456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cascaded Automatic Speech Recognition -- Large Language Model (ASR-LLM) pipelines remain popular for industrial Spoken Dialogue Systems (SDS), primarily because their decoupled design ensures perceptual verifiability. However, cascaded systems suffer from error propagation, as transcription failures inevitably cascade to subsequent components, thereby degrading the final interaction quality. Although ASR confidence scores offer a simple filter for unreliable inputs, this approach is fundamentally limited because it typically fails to detect deletion errors or to distinguish between acoustic (inability to hear clearly) and linguistic (inability to understand) mismatches, both of which require targeted recovery strategies. In this paper, we propose a cause-aware error recovery paradigm that fundamentally rethinks robustness in SDS. Unlike traditional confidence filtering, we introduce a suite of small precision-focused detectors that exploit deep ASR latent representations to disentangle token-level errors into perception, comprehension, and deletion failures. This fine-grained diagnostic intelligence empowers the LLM to orchestrate targeted, multi-turn clarification strategies, effectively transforming ambiguous signals into seamless user interactions. Experimental results validate the precision of our approach, which more than doubles the recall on domain-shift errors (57.96% vs. 23.66%) compared to baselines. Crucially, this diagnostic precision yields up to a 30% reduction in WER and a 17% improvement on the downstream task across diverse accents, distortions, and domains.
- Abstract(参考訳): Cascaded Automatic Speech Recognition -- Large Language Model (ASR-LLM) パイプラインは産業用音声対話システム(SDS)で広く使われている。
しかし、カスケードされたシステムはエラーの伝播に悩まされ、転写障害は必然的に後続のコンポーネントにカスケードし、最終的な相互作用品質を低下させる。
ASRの信頼度スコアは、信頼できない入力に対して単純なフィルタを提供するが、この手法は基本的に、削除エラーを検出したり、音響的(明瞭に聞こえない)と言語的(理解できない)のミスマッチを区別できないため、基本的に制限されている。
本稿では,SDSにおけるロバスト性を根本的に再考する原因認識型エラー回復パラダイムを提案する。
従来の信頼度フィルタリングとは違って、トークンレベルのエラーを認識、理解、削除障害にアンタングルするために、深いASR潜伏表現を利用する、精度重視の小さな検出器群を導入します。
この微細な診断知能により、LLMはターゲットとするマルチターンの明確化戦略を編成し、曖昧な信号をシームレスなユーザインタラクションに効果的に変換する。
実験の結果,ドメインシフトエラー(57.96%対23.66%)のリコールをベースラインと比較して2倍以上の精度で行うことができた。
重要な点として、この診断精度は、WERの最大30%の削減と、様々なアクセント、歪み、ドメインにわたる下流タスクの17%の改善をもたらす。
関連論文リスト
- LLMs Should Express Uncertainty Explicitly [19.324830531710024]
モデルが最終回答の正当性スコアを口頭弁別するグローバルインターフェースと、推論中に明確な不確定なマーカーを出力するローカルインターフェースの2つの相補的インターフェースを比較した。
垂直化信頼度はキャリブレーションを大幅に改善し、過信エラーを低減し、アダプティブRAGコントローラとして最強となる。
推論時不確実性信号は、生成中に前もってサイレント障害を可視化し、回答のカバレッジを改善し、効果的なハイリコール検索トリガを提供する。
論文 参考訳(メタデータ) (2026-04-07T01:20:29Z) - Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models [94.68358825189738]
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
論文 参考訳(メタデータ) (2026-04-03T15:19:46Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Adversarial Question Answering Robustness: A Multi-Level Error Analysis and Mitigation Study [0.0]
質問応答(QA)システムは、SQuADのような標準ベンチマークで印象的なパフォーマンスを達成するが、敵の例には弱いままである。
本研究は,AddSent逆数データセット上での変圧器モデルの逆数ロバスト性について検討する。
論文 参考訳(メタデータ) (2026-01-06T04:20:33Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Not All Errors Are Equal: Investigation of Speech Recognition Errors in Alzheimer's Disease Detection [62.942077348224046]
アルツハイマー病(AD)の自動診断における音声認識の役割
近年の研究では,単語誤り率(WER)とAD検出性能の非線形関係が明らかにされている。
本研究は,BERTを用いたAD検出システムにおけるASR転写誤りの影響について,一連の解析を行った。
論文 参考訳(メタデータ) (2024-12-09T09:32:20Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。