論文の概要: Frontend Token Enhancement for Token-Based Speech Recognition
- arxiv url: http://arxiv.org/abs/2602.04217v1
- Date: Wed, 04 Feb 2026 05:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.379321
- Title: Frontend Token Enhancement for Token-Based Speech Recognition
- Title(参考訳): 音声音声認識のためのフロントエンドトークン強調
- Authors: Takanori Ashihara, Shota Horiguchi, Kohei Matsuura, Tsubasa Ochiai, Marc Delcroix,
- Abstract要約: 音声信号の離散化表現は、音声認識アプリケーションにおける連続的な特徴の効率的な代替手段である。
本研究では,雑音の多い音声からクリーンな音声トークンを推定し,意味的トークンを用いてASRバックエンド上で評価するシステムを提案する。
入力/トークン領域に基づく拡張モデルとして,ウェーブ・ツー・ウェーブ・トゥ・ウェーブ・トゥ・アウトプット,連続SSL機能・ツー・ツー・ケン,ウェーブ・ツー・ツー・ケンの4種類を検討する。
- 参考スコア(独自算出の注目度): 50.35062963870211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discretized representations of speech signals are efficient alternatives to continuous features for various speech applications, including automatic speech recognition (ASR) and speech language models. However, these representations, such as semantic or phonetic tokens derived from clustering outputs of self-supervised learning (SSL) speech models, are susceptible to environmental noise, which can degrade backend task performance. In this work, we introduce a frontend system that estimates clean speech tokens from noisy speech and evaluate it on an ASR backend using semantic tokens. We consider four types of enhancement models based on their input/output domains: wave-to-wave, token-to-token, continuous SSL features-to-token, and wave-to-token. These models are trained independently of ASR backends. Experiments on the CHiME-4 dataset demonstrate that wave-to-token enhancement achieves the best performance among the frontends. Moreover, it mostly outperforms the ASR system based on continuous SSL features.
- Abstract(参考訳): 音声信号の離散化表現は、音声認識(ASR)や音声モデルなど、様々な音声アプリケーションにおける連続的な特徴の効率的な代替手段である。
しかし、これらの表現は、自己教師付き学習(SSL)音声モデルのクラスタリング出力から派生した意味的トークンや音声的トークンなどであり、環境騒音の影響を受けやすいため、バックエンドタスクのパフォーマンスを劣化させる可能性がある。
本研究では,雑音の多い音声からクリーンな音声トークンを推定するフロントエンドシステムを導入し,意味的トークンを用いてASRバックエンド上で評価する。
入力/出力領域に基づく拡張モデルとして,ウェーブ・ツー・ウェーブ・トゥ・ウェーブ・ツー・ケン,トークン・ツー・ケン,連続SSL機能・ツー・ケン,ウェーブ・ツー・ケンの4種類を検討する。
これらのモデルは、ASRバックエンドとは独立して訓練される。
CHiME-4データセットによる実験により、波動対トークンの強化がフロントエンド間で最高のパフォーマンスを達成することが示された。
さらに、連続的なSSL機能に基づいたASRシステムよりもパフォーマンスが優れている。
関連論文リスト
- LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2025-06-20T04:15:14Z) - A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language
Models [58.996653700982556]
既存の音声トークンは、特に音声言語モデリングのために設計されていない。
音声大言語モデルのための統一型音声トークンであるSpeechTokenizerを提案する。
実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2023-08-31T12:53:09Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。