論文の概要: TokenChain: A Discrete Speech Chain via Semantic Token Modeling
- arxiv url: http://arxiv.org/abs/2510.06201v1
- Date: Tue, 07 Oct 2025 17:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.408381
- Title: TokenChain: A Discrete Speech Chain via Semantic Token Modeling
- Title(参考訳): TokenChain: 意味的トークンモデリングによる離散音声チェイン
- Authors: Mingxuan Wang, Satoshi Nakamura,
- Abstract要約: TokenChainは、2段階のTSと個別の音声連鎖結合セマンティックトケンASRである。
テキストインターフェース全体にわたるエンドツーエンドのフィードバックは、argmax/Gumbel-Softmaxをストレートスルーで実現している。
TokenChainは2-6エポックよりも早くベースライン精度を上回り、LibriSpeech上で安定なT2Sで5-13%低い等エポック誤差が得られる。
- 参考スコア(独自算出の注目度): 28.053602247858674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Speech Chain, simulating the human perception-production loop, proves effective in jointly improving ASR and TTS. We propose TokenChain, a fully discrete speech chain coupling semantic-token ASR with a two-stage TTS: an autoregressive text-to-semantic model co-trained with ASR and a masked-generative semantic-to-acoustic model for synthesis only. End-to-end feedback across the text interface is enabled with straight-through argmax/Gumbel-Softmax and balanced with supervised ASR via dynamic weight averaging. Ablations examine optimal temperature schedules for in- and cross-domain transfer. Evaluation reveals TokenChain surpasses baseline accuracy 2-6 epochs earlier and yields 5-13% lower equal-epoch error with stable T2S on LibriSpeech, and reduces relative ASR WER by 56% and T2S WER by 31% on TED-LIUM with minimal forgetting, showing that chain learning remains effective with token interfaces and models.
- Abstract(参考訳): ヒトの知覚生成ループをシミュレートする機械音声チェインは、ASRとTSを協調的に改善するのに有効である。
本稿では,ASRと共同で学習した自動回帰テキスト・音声モデルと,合成のためのマスク付き生成セマンティック・音声モデルであるTokenChainを提案する。
テキストインターフェース全体にわたるエンドツーエンドのフィードバックは、argmax/Gumbel-Softmaxをストレートスルーで実現し、動的ウェイト平均化によって教師付きASRとバランスをとることができる。
アブレーションは、ドメイン内およびクロスドメイン転送のための最適な温度スケジュールを調べる。
評価の結果、TokenChainは2-6エポックよりも早くベースライン精度を上回り、LibriSpeech上で安定なT2Sで5-13%低下し、相対的なASR WERを56%減らし、T2S WERを31%減らした。
関連論文リスト
- Entropy-based Coarse and Compressed Semantic Speech Representation Learning [72.18542411704347]
圧縮された意味表現を学習するためのエントロピーに基づく動的集約フレームワークを提案する。
ASR、音声からテキストへの変換、音声変換タスクの実験は、圧縮された表現が密度の高いトークンシーケンスと同等以上のパフォーマンスを示すことを示した。
論文 参考訳(メタデータ) (2025-08-30T13:50:58Z) - A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data [46.73430446242378]
本稿では,ラベルのないデータセットのみを用いて,ASR性能を向上させる自己精錬フレームワークを提案する。
台湾語マンダリン音声における枠組みの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-10T17:30:32Z) - FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [56.30231216917128]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。
各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。
FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文 参考訳(メタデータ) (2025-02-16T13:54:32Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - Exploring Machine Speech Chain for Domain Adaptation and Few-Shot
Speaker Adaptation [11.79922306758482]
Machine Speech Chainは、エンドツーエンドの自動音声認識(ASR)とテキスト音声(TTS)を1つのサークルに統合し、共同トレーニングを行う。
ニューラルTTSモデルとE2E ASRモデルの両方のドメイン適応を行うために,音声チェーンにおけるTSS->ASRパイプラインを検討する。
論文 参考訳(メタデータ) (2021-04-08T14:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。