論文の概要: SW-ASR: A Context-Aware Hybrid ASR Pipeline for Robust Single Word Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.20890v1
- Date: Wed, 28 Jan 2026 04:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.355596
- Title: SW-ASR: A Context-Aware Hybrid ASR Pipeline for Robust Single Word Speech Recognition
- Title(参考訳): SW-ASR:ロバスト単一単語音声認識のためのコンテキスト対応ハイブリッドASRパイプライン
- Authors: Manali Sharma, Riya Naik, Buvaneshwari G,
- Abstract要約: 単一単語自動音声認識は言語文脈の欠如による課題である。
本稿では,最近のディープラーニング手法を概観し,ロバストな単一単語検出のためのモジュラーフレームワークを提案する。
我々は、Google Speech Commandsデータセットと、電話やメッセージングプラットフォームから収集された実世界のデータセットについて、帯域幅に制限のある条件下で評価する。
- 参考スコア(独自算出の注目度): 0.8921166277011348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-word Automatic Speech Recognition (ASR) is a challenging task due to the lack of linguistic context and sensitivity to noise, pronunciation variation, and channel artifacts, especially in low-resource, communication-critical domains such as healthcare and emergency response. This paper reviews recent deep learning approaches and proposes a modular framework for robust single-word detection. The system combines denoising and normalization with a hybrid ASR front end (Whisper + Vosk) and a verification layer designed to handle out-of-vocabulary words and degraded audio. The verification layer supports multiple matching strategies, including embedding similarity, edit distance, and LLM-based matching with optional contextual guidance. We evaluate the framework on the Google Speech Commands dataset and a curated real-world dataset collected from telephony and messaging platforms under bandwidth-limited conditions. Results show that while the hybrid ASR front end performs well on clean audio, the verification layer significantly improves accuracy on noisy and compressed channels. Context-guided and LLM-based matching yield the largest gains, demonstrating that lightweight verification and context mechanisms can substantially improve single-word ASR robustness without sacrificing latency required for real-time telephony applications.
- Abstract(参考訳): 単一単語自動音声認識(Single-word Automatic Speech Recognition, ASR)は、言語文脈の欠如と、ノイズ、発音変化、およびチャネルアーチファクトに対する感受性の欠如、特に医療や緊急対応のような低リソースのコミュニケーションクリティカルな領域において、難しい課題である。
本稿では,最近のディープラーニング手法を概観し,ロバストな単一単語検出のためのモジュラーフレームワークを提案する。
このシステムは、音声認識と正規化を、ハイブリッドASRフロントエンド(Whisper + Vosk)と、語彙外単語や劣化した音声を扱うために設計された検証層と組み合わせている。
検証レイヤは、埋め込み類似性、編集距離、オプションのコンテキストガイダンスによるLLMベースのマッチングなど、複数のマッチング戦略をサポートする。
我々は,Google Speech Commandsデータセットのフレームワークと,電話やメッセージングプラットフォームから収集した実世界のデータセットを帯域幅に制限された条件下で評価する。
その結果、ハイブリッドASRフロントエンドはクリーンオーディオでは良好に動作するが、検証層はノイズや圧縮されたチャネルの精度を著しく向上することがわかった。
文脈誘導とLLMに基づくマッチングが最大の利益となり、リアルタイム電話アプリケーションに必要なレイテンシを犠牲にすることなく、軽量な検証とコンテキスト機構がシングルワードASRロバスト性を大幅に改善できることを示した。
関連論文リスト
- Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。
本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。
提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T14:18:20Z) - Index-MSR: A high-efficiency multimodal fusion framework for speech recognition [7.677016652056559]
Index-MSRは効率的なマルチモーダル音声認識フレームワークである。
MFDは、ビデオからのテキスト関連情報を音声認識に効果的に組み込む。
Index-MSR はソータ精度を実現し,置換誤差を 2050% 削減した。
論文 参考訳(メタデータ) (2025-09-26T03:47:15Z) - WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models [49.725968706743586]
WavRAGは、ネイティブなエンドツーエンドオーディオをサポートする最初の検索拡張生成フレームワークである。
本稿では,テキストとオーディオのハイブリッド知識ベースからの検索を容易にするために,WavRetrieverを提案する。
最先端のASR-Text RAGパイプラインと比較して、WavRAGは10倍の高速化を実現しつつ、同等の検索性能を実現している。
論文 参考訳(メタデータ) (2025-02-20T16:54:07Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。
テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。
フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文 参考訳(メタデータ) (2023-07-21T09:30:46Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Leveraging Modality-specific Representations for Audio-visual Speech
Recognition via Reinforcement Learning [25.743503223389784]
我々は、MSRLと呼ばれる強化学習(RL)ベースのフレームワークを提案する。
タスク固有のメトリクスに直接関連する報酬関数をカスタマイズする。
LRS3データセットによる実験結果から,提案手法は清浄な騒音条件と各種雑音条件の両方で最先端の手法を実現することが示された。
論文 参考訳(メタデータ) (2022-12-10T14:01:54Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。