論文の概要: Speech-Aware Long Context Pruning and Integration for Contextualized Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2511.11139v1
- Date: Fri, 14 Nov 2025 10:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.535224
- Title: Speech-Aware Long Context Pruning and Integration for Contextualized Automatic Speech Recognition
- Title(参考訳): 文脈適応型音声認識のための長コンテキストプルーニングと統合化
- Authors: Yiming Rong, Yixin Zhang, Ziyi Wang, Deyang Jiang, Yunlong Zhao, Haoran Wu, Shiyu Zhou, Bo Xu,
- Abstract要約: 本稿では,関連する文脈キーワードを2段階にまとめ,統合する新しいフレームワークを提案する。
実験により,SlideSpeechおよびLibriSpeechデータセット上でのSAP$2$の最先端性能が実証された。
- 参考スコア(独自算出の注目度): 34.35034351903119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) systems have achieved remarkable performance in common conditions but often struggle to leverage long-context information in contextualized scenarios that require domain-specific knowledge, such as conference presentations. This challenge arises primarily due to constrained model context windows and the sparsity of relevant information within extensive contextual noise. To solve this, we propose the SAP$^{2}$ method, a novel framework that dynamically prunes and integrates relevant contextual keywords in two stages. Specifically, each stage leverages our proposed Speech-Driven Attention-based Pooling mechanism, enabling efficient compression of context embeddings while preserving speech-salient information. Experimental results demonstrate state-of-the-art performance of SAP$^{2}$ on the SlideSpeech and LibriSpeech datasets, achieving word error rates (WER) of 7.71% and 1.12%, respectively. On SlideSpeech, our method notably reduces biased keyword error rates (B-WER) by 41.1% compared to non-contextual baselines. SAP$^{2}$ also exhibits robust scalability, consistently maintaining performance under extensive contextual input conditions on both datasets.
- Abstract(参考訳): 音声認識(ASR)システムは、一般的な状況では顕著な性能を達成しているが、会議のプレゼンテーションのようなドメイン固有の知識を必要とするコンテキスト化されたシナリオにおいて、長いコンテキスト情報を活用するのに苦労することが多い。
この課題は、主に制約付きモデルコンテキストウィンドウと、広範囲なコンテキストノイズ内の関連する情報の空間性に起因する。
そこで本研究では,2段階のコンテキストキーワードを動的に実行し,統合する新しいフレームワークであるSAP$^{2}$法を提案する。
具体的には、提案した音声駆動型アテンションに基づくポーリング機構を活用し、音声情報を保持しながらコンテキスト埋め込みの効率的な圧縮を可能にする。
実験の結果,SlideSpeechデータセットとLibriSpeechデータセットにおけるSAP$^{2}$の最先端性能を示し,それぞれ7.71%と1.12%の単語誤り率(WER)を達成した。
SlideSpeechでは,非文脈ベースラインと比較して,バイアス付きキーワード誤り率(B-WER)を41.1%削減する。
SAP$^{2}$はまた、堅牢なスケーラビリティを示し、両方のデータセットの広いコンテキスト入力条件下で、一貫してパフォーマンスを維持します。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models [19.864555505996112]
本研究では,文脈パラ言語情報をモデル学習に組み込む2つの手法を提案する。
我々の暗黙的手法は、人間の注釈付きQAベンチマークでパフォーマンス(LLM-judged)を38.41%向上させ、明示的なアプローチと組み合わせると46.02%に達した。
論文 参考訳(メタデータ) (2025-08-10T10:03:30Z) - Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction [50.630431647192054]
本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。
対象の音声を抽出するためには、テキストの文脈にのみ依存する。
3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
論文 参考訳(メタデータ) (2025-03-11T18:26:10Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - Two-stage Textual Knowledge Distillation for End-to-End Spoken Language
Understanding [18.275646344620387]
本研究では,事前学習と微調整の2つのモードの発話レベル表現と予測ロジットを一致させる2段階のテキスト知識蒸留法を提案する。
我々は、Fluent Speech Commandsの最先端を推し進め、完全なデータセット設定で99.7%のテスト精度、10%サブセットで99.5%を達成した。
論文 参考訳(メタデータ) (2020-10-25T12:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。