論文の概要: UMA-Split: unimodal aggregation for both English and Mandarin non-autoregressive speech recognition
- arxiv url: http://arxiv.org/abs/2509.14653v1
- Date: Thu, 18 Sep 2025 06:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.091814
- Title: UMA-Split: unimodal aggregation for both English and Mandarin non-autoregressive speech recognition
- Title(参考訳): UMA-Split: 英語とマンダリンの非自己回帰音声認識のための単調アグリゲーション
- Authors: Ying Fang, Xiaofei Li,
- Abstract要約: 本稿では,英語とマンダリンの音声認識のための一元的アグリゲーション(UMA)に基づく非自己回帰モデルを提案する。
オリジナルのUMAは、同じテキストトークンの音響フレーム(最初は単調に増加し、その後減少する)を明示的に分割して集約し、通常の接続性時間分類よりも優れた表現を学習する。
1つの音節が複数のきめ細かいトークンにトークン化される、あるいはトークンが3つの音響フレーム未満に分散し、単調な重みを形成するのに失敗する、といった他の言語と競合する。
- 参考スコア(独自算出の注目度): 17.41827589524767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a unimodal aggregation (UMA) based nonautoregressive model for both English and Mandarin speech recognition. The original UMA explicitly segments and aggregates acoustic frames (with unimodal weights that first monotonically increase and then decrease) of the same text token to learn better representations than regular connectionist temporal classification (CTC). However, it only works well in Mandarin. It struggles with other languages, such as English, for which a single syllable may be tokenized into multiple fine-grained tokens, or a token spans fewer than 3 acoustic frames and fails to form unimodal weights. To address this problem, we propose allowing each UMA-aggregated frame map to multiple tokens, via a simple split module that generates two tokens from each aggregated frame before computing the CTC loss.
- Abstract(参考訳): 本稿では,英語とマンダリンの音声認識のための一元的アグリゲーション(UMA)に基づく非自己回帰モデルを提案する。
元のUMAは、同じテキストトークンの音響フレーム(最初は単調に増加し、その後減少する)を明示的に分割して集約し、通常の接続性時間分類(CTC)よりも優れた表現を学習する。
しかし、マンダリンではうまく機能している。
1つの音節が複数のきめ細かいトークンにトークン化される、あるいはトークンが3つの音響フレーム未満に分散し、単調な重みを形成するのに失敗する、といった他の言語と競合する。
この問題に対処するために,CTC損失を計算する前に,各集合フレームから2つのトークンを生成する単純な分割モジュールを用いて,各UMA集約フレームマップを複数のトークンにマップ可能にすることを提案する。
関連論文リスト
- Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Unimodal Aggregation for CTC-based Speech Recognition [7.6112706449833505]
同じテキストトークンに属する特徴フレームをセグメント化し統合するために、UMA(unimodal aggregate)を提案する。
UMAはより優れた特徴表現を学習し、シーケンス長を短縮し、認識エラーと計算複雑性を低減させる。
論文 参考訳(メタデータ) (2023-09-15T04:34:40Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Unified Multimodal Punctuation Restoration Framework for Mixed-Modality
Corpus [41.32048076609525]
本報告では,UniPuncというマルチモーダル句読点復元フレームワークを提案する。
UniPuncは混合文を単一のモデルで句読する。
実世界のデータセットに対するUniPuncの有効性を検証する。
論文 参考訳(メタデータ) (2022-01-24T10:15:53Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。