論文の概要: Decoding Order Matters in Autoregressive Speech Synthesis
- arxiv url: http://arxiv.org/abs/2601.08450v1
- Date: Tue, 13 Jan 2026 11:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.169316
- Title: Decoding Order Matters in Autoregressive Speech Synthesis
- Title(参考訳): 自己回帰音声合成におけるデコード順序事項
- Authors: Minghui Zhao, Anton Ragni,
- Abstract要約: 自己回帰音声合成はしばしば左から右への順序を採用するが、生成順序はモデル選択である。
本研究では,段階的に位置を解き放つマスク拡散フレームワークによるデコード順序について検討する。
復号順序のランダム性は音声品質に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 11.222948749269515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive speech synthesis often adopts a left-to-right order, yet generation order is a modelling choice. We investigate decoding order through masked diffusion framework, which progressively unmasks positions and allows arbitrary decoding orders during training and inference. By interpolating between identity and random permutations, we show that randomness in decoding order affects speech quality. We further compare fixed strategies, such as \texttt{l2r} and \texttt{r2l} with adaptive ones, such as Top-$K$, finding that fixed-order decoding, including the dominating left-to-right approach, is suboptimal, while adaptive decoding yields better performance. Finally, since masked diffusion requires discrete inputs, we quantise acoustic representations and find that even 1-bit quantisation can support reasonably high-quality speech.
- Abstract(参考訳): 自己回帰音声合成はしばしば左から右への順序を採用するが、生成順序はモデル選択である。
本研究では、段階的に位置を解き、訓練や推論中に任意の復号命令を許容するマスク拡散フレームワークによる復号順序について検討する。
同一性とランダムな置換を補間することにより、復号順序のランダム性が音声品質に影響を及ぼすことを示す。
さらに、Top-$K$のような適応的な戦略と、\texttt{l2r} や \texttt{r2l} のような固定的な戦略を比較し、左から右への支配的アプローチを含む固定順序復号法が最適でないことを発見した。
最後に、マスク拡散は離散的な入力を必要とするため、音響表現を量子化し、1ビットの量子化でさえ、合理的に高品質な音声をサポートすることができる。
関連論文リスト
- Search or Accelerate: Confidence-Switched Position Beam Search for Diffusion Language Models [24.78455014605002]
拡散言語モデルは、マスキングシーケンスを反復的に認知することでテキストを生成する。
標準復号法は強欲な規則に従っており、最も自信のある位置を解き放つ。
トレーニング不要なデコードアルゴリズムであるSOARをモデルの不確実性に適応させる。
論文 参考訳(メタデータ) (2026-02-11T15:41:09Z) - DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion [28.204167153140506]
音声トークン化器は、離散音声大言語モデルの基盤となる。
本稿では,DSA-Tokenizerを提案する。
論文 参考訳(メタデータ) (2026-01-14T07:22:24Z) - A Framework for Bidirectional Decoding: Case Study in Morphological
Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。
各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。
我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文 参考訳(メタデータ) (2023-05-21T22:08:31Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Neural Syntactic Preordering for Controlled Paraphrase Generation [57.5316011554622]
私たちの研究は、構文変換を使用して、ソース文をソフトに"リオーダー"し、神経パラフレージングモデルをガイドします。
まず、入力文が与えられた場合、エンコーダ・デコーダモデルを用いて、実行可能な構文再構成のセットを導出する。
次に、提案した各再構成を用いて位置埋め込みのシーケンスを生成し、最終的なエンコーダ-デコーダパラフレーズモデルが特定の順序でソース語に従属することを奨励する。
論文 参考訳(メタデータ) (2020-05-05T09:02:25Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。