論文の概要: Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades
- arxiv url: http://arxiv.org/abs/2605.17443v1
- Date: Sun, 17 May 2026 13:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.367873
- Title: Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades
- Title(参考訳): ASR-LLMカスケードを用いた韓国音声QAにおける誤り伝播の解析
- Authors: Donghyuk Jung, Youngwon Choi,
- Abstract要約: 韓国語音声質問応答(SQA)におけるASR-LLMカスケードによる自動音声認識(ASR)誤差の伝播について解析する。
解析の結果, ASR誤差による下流の相対的な劣化は, 絶対性能の異なるLLM間で一致していることがわかった。
- 参考スコア(独自算出の注目度): 1.2604738912025477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze how automatic speech recognition (ASR) errors propagate through ASR-LLM cascades in Korean spoken question answering (SQA), focusing on downstream semantic failures that conventional ASR metrics cannot fully capture. Our analysis shows that the relative downstream degradation caused by ASR errors is consistent across LLMs with different absolute performance, suggesting that cascade degradation largely tracks ASR-stage information loss. We further identify single-character Korean ASR errors as a distinct semantic-failure channel, where the gold answer becomes entirely absent from the downstream prediction despite only a minimal transcription difference. Finally, an auxiliary comparison shows that a large audio language model outperforms an ASR-LLM pipeline with a matched language backbone in noisy Korean SQA, indicating the potential of direct audio input to mitigate transcript-induced information loss.
- Abstract(参考訳): 韓国語音声質問応答(SQA)におけるASR-LLMカスケードによる自動音声認識(ASR)の誤りがいかに伝播するかを分析し,従来のASRメトリクスが完全に捕捉できないダウンストリーム意味障害に着目した。
解析の結果、ASRの誤差による下流の相対的な劣化は、絶対的性能の異なるLLM間で一致していることが示され、カスケードの劣化はASRの段階的な情報損失をほとんど追跡していることが示唆された。
さらに,単一文字の韓国のASRエラーを意味障害チャネルとして同定し,最小の転写差があるにもかかわらず,下流の予測から金の解答が完全に欠落することを示した。
最後に, 韓国SQAにおいて, ASR-LLMパイプラインより大きな音声言語モデルの方が, 雑音の多い韓国SQAにおいて一致した言語バックボーンよりも優れており, 書き起こしによる情報損失を軽減する直接的な音声入力の可能性を示している。
関連論文リスト
- Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering [76.4510005602893]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文 参考訳(メタデータ) (2024-01-24T14:08:38Z) - Multimodal Audio-textual Architecture for Robust Spoken Language
Understanding [18.702076738332867]
マルチモーダル言語理解 (MLU) モジュールは、ASR文字の誤りによるSLUの性能劣化を軽減するために提案されている。
本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。
その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2023-06-12T01:55:53Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。