論文の概要: M-CIF: Multi-Scale Alignment For CIF-Based Non-Autoregressive ASR
- arxiv url: http://arxiv.org/abs/2510.22172v1
- Date: Sat, 25 Oct 2025 05:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.499166
- Title: M-CIF: Multi-Scale Alignment For CIF-Based Non-Autoregressive ASR
- Title(参考訳): M-CIF:CIFに基づく非自己回帰型ASRのためのマルチスケールアライメント
- Authors: Ruixiang Mao, Xiangnan Ma, Qing Yang, Ziming Zhu, Yucheng Qiao, Yuan Ge, Tong Xiao, Shengxiang Gao, Zhengtao Yu, Jingbo Zhu,
- Abstract要約: 連続積分と火災(CIF)機構は、非自己回帰(NAR)音声認識に効果的なアライメントを提供する。
本稿では,文字と音素レベルの調整を段階的にサブワード表現に統合し,多段階アライメントを行うマルチスケールCIF(M-CIF)を提案する。
実験の結果、M-CIFはParaformerベースラインと比較してWERを減少させ、特にCommonVoiceでは4.21%、フランス語では3.05%削減した。
- 参考スコア(独自算出の注目度): 41.40686087278435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Continuous Integrate-and-Fire (CIF) mechanism provides effective alignment for non-autoregressive (NAR) speech recognition. This mechanism creates a smooth and monotonic mapping from acoustic features to target tokens, achieving performance on Mandarin competitive with other NAR approaches. However, without finer-grained guidance, its stability degrades in some languages such as English and French. In this paper, we propose Multi-scale CIF (M-CIF), which performs multi-level alignment by integrating character and phoneme level supervision progressively distilled into subword representations, thereby enhancing robust acoustic-text alignment. Experiments show that M-CIF reduces WER compared to the Paraformer baseline, especially on CommonVoice by 4.21% in German and 3.05% in French. To further investigate these gains, we define phonetic confusion errors (PE) and space-related segmentation errors (SE) as evaluation metrics. Analysis of these metrics across different M-CIF settings reveals that the phoneme and character layers are essential for enhancing progressive CIF alignment.
- Abstract(参考訳): Continuous Integrate-and-Fire(CIF)メカニズムは、非自己回帰(NAR)音声認識に効果的なアライメントを提供する。
このメカニズムは、音響特徴からターゲットトークンへの滑らかで単調なマッピングを生成し、他のNARアプローチと競合するマンダリンの性能を達成する。
しかし、よりきめ細かいガイダンスがなければ、その安定性は英語やフランス語などいくつかの言語で低下する。
本稿では,文字と音素レベルの調整を段階的にサブワード表現に統合することで,多段階のアライメントを実現するマルチスケールCIF(M-CIF)を提案する。
実験の結果、M-CIFはParaformerベースラインと比較してWERを減少させ、特にCommonVoiceでは4.21%、フランス語では3.05%削減した。
これらの利得をさらに調査するため,音韻混和誤差 (PE) と空間関連セグメンテーション誤差 (SE) を評価指標として定義する。
これらの指標を異なるM-CIF設定で分析すると、音素層と文字層が進行性CIFアライメントの強化に不可欠であることが分かる。
関連論文リスト
- MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs [54.229363096087866]
音声トークン化器は、意味不明な音響摂動に対して頑健ではない。
この不安定性は、脆い単一パス量子化アーキテクチャと遠い訓練信号の2つの欠陥に由来する。
コンセンサス駆動機構による安定性を実現するトークンライザであるStableTokenを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:32:51Z) - Eliminating stability hallucinations in llm-based tts models via attention guidance [54.69225348397135]
本稿では,テキスト音声(TTS)モデルにおける安定性の幻覚の解消に注目する。
我々は,テキスト音声アライメントの品質を評価するためにビタビアルゴリズムを用いて,最適アライメントスコア(OAS)と呼ばれるメトリクスを提案した。
提案法は,CosyVoice2の安定性を負の効果を伴わずに効果的に抑制することができる。
論文 参考訳(メタデータ) (2025-09-24T07:47:52Z) - New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR [30.00166986946003]
我々は、アライメントとマッチングを検出問題とみなすために、新たな洞察を得る。
目標は、高精度で意味のある対応を識別し、言語トークンの完全なカバレッジを確保することである。
分布ミスマッチと構造的非対称性を明示的に扱う不均衡な輸送ベースアライメントモデルを提案する。
論文 参考訳(メタデータ) (2025-09-06T05:58:52Z) - PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambiguation [35.774826781541385]
我々はPhonme-Augmented Robust Contextual ASR(Phonme-Augmented Robust Contextual ASR)を提案する。
PARCOは、音素認識符号化、コントラストエンティティ曖昧化、エンティティレベルの監視、階層エンティティフィルタリングを統合している。
実験の結果、PARCOは中国のAISHELL-1で4.22%、WERで11.14%のCERを達成した。
論文 参考訳(メタデータ) (2025-09-04T16:18:34Z) - LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2025-06-20T04:15:14Z) - Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。
本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文 参考訳(メタデータ) (2025-03-13T15:11:28Z) - Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文 参考訳(メタデータ) (2023-05-12T11:29:13Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。