論文の概要: Frontend Token Enhancement for Token-Based Speech Recognition
- arxiv url: http://arxiv.org/abs/2602.04217v1
- Date: Wed, 04 Feb 2026 05:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.379321
- Title: Frontend Token Enhancement for Token-Based Speech Recognition
- Title(参考訳): 音声音声認識のためのフロントエンドトークン強調
- Authors: Takanori Ashihara, Shota Horiguchi, Kohei Matsuura, Tsubasa Ochiai, Marc Delcroix,
- Abstract要約: 音声信号の離散化表現は、音声認識アプリケーションにおける連続的な特徴の効率的な代替手段である。
本研究では,雑音の多い音声からクリーンな音声トークンを推定し,意味的トークンを用いてASRバックエンド上で評価するシステムを提案する。
入力/トークン領域に基づく拡張モデルとして,ウェーブ・ツー・ウェーブ・トゥ・ウェーブ・トゥ・アウトプット,連続SSL機能・ツー・ツー・ケン,ウェーブ・ツー・ツー・ケンの4種類を検討する。
- 参考スコア(独自算出の注目度): 50.35062963870211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discretized representations of speech signals are efficient alternatives to continuous features for various speech applications, including automatic speech recognition (ASR) and speech language models. However, these representations, such as semantic or phonetic tokens derived from clustering outputs of self-supervised learning (SSL) speech models, are susceptible to environmental noise, which can degrade backend task performance. In this work, we introduce a frontend system that estimates clean speech tokens from noisy speech and evaluate it on an ASR backend using semantic tokens. We consider four types of enhancement models based on their input/output domains: wave-to-wave, token-to-token, continuous SSL features-to-token, and wave-to-token. These models are trained independently of ASR backends. Experiments on the CHiME-4 dataset demonstrate that wave-to-token enhancement achieves the best performance among the frontends. Moreover, it mostly outperforms the ASR system based on continuous SSL features.
- Abstract(参考訳): 音声信号の離散化表現は、音声認識(ASR)や音声モデルなど、様々な音声アプリケーションにおける連続的な特徴の効率的な代替手段である。
しかし、これらの表現は、自己教師付き学習(SSL)音声モデルのクラスタリング出力から派生した意味的トークンや音声的トークンなどであり、環境騒音の影響を受けやすいため、バックエンドタスクのパフォーマンスを劣化させる可能性がある。
本研究では,雑音の多い音声からクリーンな音声トークンを推定するフロントエンドシステムを導入し,意味的トークンを用いてASRバックエンド上で評価する。
入力/出力領域に基づく拡張モデルとして,ウェーブ・ツー・ウェーブ・トゥ・ウェーブ・ツー・ケン,トークン・ツー・ケン,連続SSL機能・ツー・ケン,ウェーブ・ツー・ケンの4種類を検討する。
これらのモデルは、ASRバックエンドとは独立して訓練される。
CHiME-4データセットによる実験により、波動対トークンの強化がフロントエンド間で最高のパフォーマンスを達成することが示された。
さらに、連続的なSSL機能に基づいたASRシステムよりもパフォーマンスが優れている。
関連論文リスト
- A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。