論文の概要: Decoding Order Matters in Autoregressive Speech Synthesis
- arxiv url: http://arxiv.org/abs/2601.08450v1
- Date: Tue, 13 Jan 2026 11:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.169316
- Title: Decoding Order Matters in Autoregressive Speech Synthesis
- Title(参考訳): 自己回帰音声合成におけるデコード順序事項
- Authors: Minghui Zhao, Anton Ragni,
- Abstract要約: 自己回帰音声合成はしばしば左から右への順序を採用するが、生成順序はモデル選択である。
本研究では,段階的に位置を解き放つマスク拡散フレームワークによるデコード順序について検討する。
復号順序のランダム性は音声品質に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 11.222948749269515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive speech synthesis often adopts a left-to-right order, yet generation order is a modelling choice. We investigate decoding order through masked diffusion framework, which progressively unmasks positions and allows arbitrary decoding orders during training and inference. By interpolating between identity and random permutations, we show that randomness in decoding order affects speech quality. We further compare fixed strategies, such as \texttt{l2r} and \texttt{r2l} with adaptive ones, such as Top-$K$, finding that fixed-order decoding, including the dominating left-to-right approach, is suboptimal, while adaptive decoding yields better performance. Finally, since masked diffusion requires discrete inputs, we quantise acoustic representations and find that even 1-bit quantisation can support reasonably high-quality speech.
- Abstract(参考訳): 自己回帰音声合成はしばしば左から右への順序を採用するが、生成順序はモデル選択である。
本研究では、段階的に位置を解き、訓練や推論中に任意の復号命令を許容するマスク拡散フレームワークによる復号順序について検討する。
同一性とランダムな置換を補間することにより、復号順序のランダム性が音声品質に影響を及ぼすことを示す。
さらに、Top-$K$のような適応的な戦略と、\texttt{l2r} や \texttt{r2l} のような固定的な戦略を比較し、左から右への支配的アプローチを含む固定順序復号法が最適でないことを発見した。
最後に、マスク拡散は離散的な入力を必要とするため、音響表現を量子化し、1ビットの量子化でさえ、合理的に高品質な音声をサポートすることができる。
関連論文リスト
- SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。