Fugu-MT 論文翻訳(概要): Frontend Token Enhancement for Token-Based Speech Recognition

論文の概要: Frontend Token Enhancement for Token-Based Speech Recognition

arxiv url: http://arxiv.org/abs/2602.04217v1
Date: Wed, 04 Feb 2026 05:02:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-05 19:45:11.379321
Title: Frontend Token Enhancement for Token-Based Speech Recognition
Title（参考訳）: 音声音声認識のためのフロントエンドトークン強調
Authors: Takanori Ashihara, Shota Horiguchi, Kohei Matsuura, Tsubasa Ochiai, Marc Delcroix,
Abstract要約: 音声信号の離散化表現は、音声認識アプリケーションにおける連続的な特徴の効率的な代替手段である。本研究では,雑音の多い音声からクリーンな音声トークンを推定し,意味的トークンを用いてASRバックエンド上で評価するシステムを提案する。入力/トークン領域に基づく拡張モデルとして,ウェーブ・ツー・ウェーブ・トゥ・ウェーブ・トゥ・アウトプット,連続SSL機能・ツー・ツー・ケン,ウェーブ・ツー・ツー・ケンの4種類を検討する。
参考スコア（独自算出の注目度）: 50.35062963870211
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Discretized representations of speech signals are efficient alternatives to continuous features for various speech applications, including automatic speech recognition (ASR) and speech language models. However, these representations, such as semantic or phonetic tokens derived from clustering outputs of self-supervised learning (SSL) speech models, are susceptible to environmental noise, which can degrade backend task performance. In this work, we introduce a frontend system that estimates clean speech tokens from noisy speech and evaluate it on an ASR backend using semantic tokens. We consider four types of enhancement models based on their input/output domains: wave-to-wave, token-to-token, continuous SSL features-to-token, and wave-to-token. These models are trained independently of ASR backends. Experiments on the CHiME-4 dataset demonstrate that wave-to-token enhancement achieves the best performance among the frontends. Moreover, it mostly outperforms the ASR system based on continuous SSL features.
Abstract（参考訳）: 音声信号の離散化表現は、音声認識(ASR)や音声モデルなど、様々な音声アプリケーションにおける連続的な特徴の効率的な代替手段である。しかし、これらの表現は、自己教師付き学習(SSL)音声モデルのクラスタリング出力から派生した意味的トークンや音声的トークンなどであり、環境騒音の影響を受けやすいため、バックエンドタスクのパフォーマンスを劣化させる可能性がある。本研究では,雑音の多い音声からクリーンな音声トークンを推定するフロントエンドシステムを導入し,意味的トークンを用いてASRバックエンド上で評価する。入力/出力領域に基づく拡張モデルとして,ウェーブ・ツー・ウェーブ・トゥ・ウェーブ・ツー・ケン,トークン・ツー・ケン,連続SSL機能・ツー・ケン,ウェーブ・ツー・ケンの4種類を検討する。これらのモデルは、ASRバックエンドとは独立して訓練される。 CHiME-4データセットによる実験により、波動対トークンの強化がフロントエンド間で最高のパフォーマンスを達成することが示された。さらに、連続的なSSL機能に基づいたASRシステムよりもパフォーマンスが優れている。

論文の概要: Frontend Token Enhancement for Token-Based Speech Recognition

関連論文リスト