論文の概要: STEAMROLLER: A Multi-Agent System for Inclusive Automatic Speech Recognition for People who Stutter
- arxiv url: http://arxiv.org/abs/2601.10223v1
- Date: Thu, 15 Jan 2026 09:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.083118
- Title: STEAMROLLER: A Multi-Agent System for Inclusive Automatic Speech Recognition for People who Stutter
- Title(参考訳): STEAMROLLER: 発声者のための包括的音声認識のためのマルチエージェントシステム
- Authors: Ziqi Xu, Yi Liu, Yuekang Li, Ling Shi, Kailong Wang, Yongxin Zhao,
- Abstract要約: STEAMROLLERは, マルチステージ・マルチエージェント型AIパイプラインを用いて, 発声音声を流速出力に変換するリアルタイムシステムである。
提案手法は,(1)不合理な入力に対する音声への直接変換の難しさ,(2)発声音声のASR転写中に導入された意味的歪み,(3)リアルタイム通信における遅延制約の3つの重要な技術的課題に対処する。
- 参考スコア(独自算出の注目度): 17.65146066814439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People who stutter (PWS) face systemic exclusion in today's voice-driven society, where access to voice assistants, authentication systems, and remote work tools increasingly depends on fluent speech. Current automatic speech recognition (ASR) systems, trained predominantly on fluent speech, fail to serve millions of PWS worldwide. We present STEAMROLLER, a real time system that transforms stuttered speech into fluent output through a novel multi-stage, multi-agent AI pipeline. Our approach addresses three critical technical challenges: (1) the difficulty of direct speech to speech conversion for disfluent input, (2) semantic distortions introduced during ASR transcription of stuttered speech, and (3) latency constraints for real time communication. STEAMROLLER employs a three stage architecture comprising ASR transcription, multi-agent text repair, and speech synthesis, where our core innovation lies in a collaborative multi-agent framework that iteratively refines transcripts while preserving semantic intent. Experiments on the FluencyBank dataset and a user study demonstrates clear word error rate (WER) reduction and strong user satisfaction. Beyond immediate accessibility benefits, fine tuning ASR on STEAMROLLER repaired speech further yields additional WER improvements, creating a pathway toward inclusive AI ecosystems.
- Abstract(参考訳): 音声アシスタント、認証システム、リモートワークツールへのアクセスは、ますます流動的な音声に依存している。
現在の自動音声認識(ASR)システムは、主に流動的な音声で訓練されているが、世界中の何百万ものPWSに役に立たない。
STEAMROLLERは, マルチステージ・マルチエージェント型AIパイプラインを用いて, 発声音声を流速出力に変換するリアルタイムシステムである。
提案手法は,(1)不合理な入力に対する音声への直接変換の難しさ,(2)発声音声のASR転写中に導入された意味的歪み,(3)リアルタイム通信における遅延制約の3つの重要な技術的課題に対処する。
STEAMROLLERは、ASR文字起こし、マルチエージェントテキスト修復、音声合成という3段階のアーキテクチャを採用しています。
FluencyBankデータセットとユーザスタディの実験では、明確な単語エラー率(WER)の低減とユーザ満足度が示されている。
即時アクセシビリティのメリット以外にも、STEAMROLLER修正された音声に対するASRの微調整により、さらにWERの改善が得られ、包括的AIエコシステムへの道が開かれる。
関連論文リスト
- Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。
本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。
提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T14:18:20Z) - From Silent Signals to Natural Language: A Dual-Stage Transformer-LLM Approach [0.0]
本稿では,変圧器をベースとした音響モデルと,後処理のための大規模言語モデル(LLM)を組み合わせた音声認識フレームワークを提案する。
実験の結果,単語誤り率 (WER) は36%の基準で16%, 単語誤り率 (WER) は6%低下した。
論文 参考訳(メタデータ) (2025-09-02T16:13:29Z) - Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文 参考訳(メタデータ) (2024-09-25T20:59:12Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。