論文の概要: Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation
- arxiv url: http://arxiv.org/abs/2605.29430v1
- Date: Thu, 28 May 2026 06:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.85389
- Title: Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation
- Title(参考訳): エージェント補正と意味評価による人間的対話型音声認識の実現に向けて
- Authors: Zixuan Jiang, Yanqiao Zhu, Peng Wang, Qinyuan Chen, Xinjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen,
- Abstract要約: 単一パスのASRフロントエンドと意味的訂正,意図のルーティング,推論に基づく編集を組み合わせた閉ループフレームワークである textbfAgentic ASR を提案する。
複数言語、名前付き集中型、コードスイッチングベンチマークの実験は、反復的相互作用が意味的誤りを一貫して減少させることを示している。
- 参考スコア(独自算出の注目度): 53.844308305341166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) is a core component of human--computer interaction and an increasingly important front-end for LLM-based assistants and agents. However, most current ASR systems still follow a single-pass paradigm, which is poorly aligned with human communication, where misunderstandings are resolved through iterative clarification and refinement. This mismatch makes it difficult to correct meaning-critical errors once they occur. Meanwhile, token-level metrics such as WER or CER cannot adequately reflect such a problem. To address these limitations, we formulate \emph{Interactive ASR} as a multi-turn refinement task and propose \textbf{Agentic ASR}, a closed-loop framework that combines a single-pass ASR front-end with semantic correction, intent routing, and reasoning-based editing. We further introduce the \textbf{Sentence-level Semantic Error Rate} ($S^2ER$), an LLM-based semantic evaluation metric, together with an \textbf{Interactive Simulation System} for scalable and reproducible benchmarking. Experiments on multilingual, named-entity-intensive, and code-switching benchmarks show that iterative interaction consistently reduces semantic errors, with much larger gains in $S^2ER$ than in conventional token-level metrics. Human--AI alignment and ablation studies further validate the reliability of the semantic judge and the robustness of the proposed framework. The code is available at: https://interactiveasr.github.io/ and the live demo is available at https://i-asr.sjtuxlance.com/
- Abstract(参考訳): 自動音声認識(ASR)は、人間とコンピュータの相互作用の中核となるコンポーネントであり、LLMベースのアシスタントやエージェントにとってますます重要なフロントエンドである。
しかし、現在のほとんどのASRシステムはシングルパスのパラダイムを踏襲しており、人間のコミュニケーションと不一致であり、誤解は反復的明確化と洗練によって解決される。
このミスマッチは、一度発生すると意味クリティカルなエラーを修正するのを難しくする。
一方、WERやCERのようなトークンレベルのメトリクスは、そのような問題を適切に反映することはできない。
これらの制約に対処するため,多ターン改良タスクとして \emph{Interactive ASR} を定式化し,単一パスのASRフロントエンドと意味的修正,意図的ルーティング,推論に基づく編集を組み合わせたクローズドループフレームワークである \textbf{Agentic ASR} を提案する。
さらに,LLMに基づく意味評価指標である「textbf{Sentence-level Semantic Error Rate}」(S^2ER$)と,スケーラブルで再現可能なベンチマークのための「textbf{Interactive Simulation System}」を紹介する。
多言語、名前付き集中型、コードスイッチングベンチマークの実験は、反復的相互作用が従来のトークンレベルの指標よりもずっと大きなS^2ER$で、意味的エラーを一貫して減少させることを示している。
人間-AIアライメントとアブレーションの研究は、セマンティック・ジャッジの信頼性と提案フレームワークの堅牢性をさらに検証する。
コードはhttps://interactiveasr.github.io/で、ライブデモはhttps://i-asr.sjtuxlance.com/で入手できる。
関連論文リスト
- Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition [52.63676763985825]
トークンレベルの精度を超えた認識品質を評価するための意味認識評価指標を提案する。
我々は,人間のようなマルチターンインタラクションをシミュレートするエージェント・フレームワークを設計し,認識出力の反復的改善を可能にする。
対話型およびエージェント型ASRにおける今後の研究を促進するためのコードをリリースする。
論文 参考訳(メタデータ) (2026-04-10T09:02:42Z) - Retrieval-Augmented Self-Taught Reasoning Model with Adaptive Chain-of-Thought for ASR Named Entity Correction [12.483998165719981]
自動音声認識(ASR)における名前付きエンティティエラーの修正のための検索拡張生成フレームワークを提案する。
提案手法は,(1)名前付きエンティティ認識のための言い換え言語モデル(RLM)と,(2)タスクの難易度に基づいて推論の深さを動的に調整する適応チェーン・オブ・シント(A-STAR)を用いた新しい自己学習推論モデルからなる。
論文 参考訳(メタデータ) (2026-01-21T15:05:39Z) - PROFASR-BENCH: A Benchmark for Context-Conditioned ASR in High-Stakes Professional Speech [0.0]
ProfASR-Benchは、金融、医療、法律、技術全般にわたる高度な応用のためのプロフェッショナルトーク評価スイートである。
それぞれの例は、自然言語プロンプトとエンティティリッチなターゲット発話をペアリングし、コンテキスト条件認識の制御された計測を可能にする。
論文 参考訳(メタデータ) (2025-12-29T18:43:23Z) - Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches [28.79400870481616]
1)既存のメトリクスは知性を十分に反映していない、(2)LSMはASR出力を洗練できるが、ASR書き起こしの修正の有効性は過小評価されている。
本稿では,自然言語推論(NLI)スコア,意味的類似性,音韻的類似性を組み合わせた新しいメトリクスを提案する。
我々のASR評価基準は,音声アクセシビリティプロジェクトデータにおける人間の判断と0.890の相関を達成し,従来の手法を超越し,誤りに基づく尺度よりもインテリジェンスを優先する必要性を強調した。
論文 参考訳(メタデータ) (2025-06-19T18:21:19Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。