論文の概要: WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
- arxiv url: http://arxiv.org/abs/2604.08558v1
- Date: Tue, 17 Mar 2026 07:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.41221
- Title: WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
- Title(参考訳): WAND:効率的な自己回帰型音声合成モデルのためのウィンドウド・アテンションと知識蒸留
- Authors: Hanna Lee, Tan Dat Nguyen, Jaehoon Kang, Kyuhong Shim,
- Abstract要約: 最近のデコーダのみによる自己回帰型音声合成(AR-TTS)モデルは高忠実度音声を生成するが、そのメモリと計算コストは、自己注意によるシーケンス長の2倍にスケールする。
WAND(Windowed Attention and Knowledge Distillation)は、トレーニング済みのAR-TTSモデルを一定の計算量とメモリの複雑さで動作させるフレームワークである。
- 参考スコア(独自算出の注目度): 12.448872328982779
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent decoder-only autoregressive text-to-speech (AR-TTS) models produce high-fidelity speech, but their memory and compute costs scale quadratically with sequence length due to full self-attention. In this paper, we propose WAND, Windowed Attention and Knowledge Distillation, a framework that adapts pretrained AR-TTS models to operate with constant computational and memory complexity. WAND separates the attention mechanism into two: persistent global attention over conditioning tokens and local sliding-window attention over generated tokens. To stabilize fine-tuning, we employ a curriculum learning strategy that progressively tightens the attention window. We further utilize knowledge distillation from a full-attention teacher to recover high-fidelity synthesis quality with high data efficiency. Evaluated on three modern AR-TTS models, WAND preserves the original quality while achieving up to 66.2% KV cache memory reduction and length-invariant, near-constant per-step latency.
- Abstract(参考訳): 最近のデコーダのみによる自己回帰型音声合成(AR-TTS)モデルは高忠実度音声を生成するが、そのメモリと計算コストは、完全自己注意によるシーケンス長の2倍にスケールする。
本稿では,WAND, Windowed Attention and Knowledge Distillationを提案する。このフレームワークは,トレーニング済みのAR-TTSモデルを一定の計算量とメモリの複雑さで動作させる。
WANDは、アテンションメカニズムを2つに分けている: コンディショニングトークンに対する継続的なグローバルアテンションと、生成されたトークンに対するローカルなスライディングウィンドウアテンションである。
微調整を安定させるために,注意窓を徐々に締め付けるカリキュラム学習戦略を採用する。
さらに,教師の知識蒸留を利用して,高忠実度合成品質を高効率で再現する。
現代の3つのAR-TTSモデルで評価され、WANDは66.2%のKVキャッシュメモリの削減と、ステップ毎の遅延時間の長さ不変性を実現しつつ、元の品質を保っている。
関連論文リスト
- Speech Recognition Model Improves Text-to-Speech Synthesis using Fine-Grained Reward [4.375679183191095]
ASR-driven Attentive Reward (W3AR)による単語レベルTSアライメントの導入
W3ARは、事前訓練されたASRモデルからの注意を使って、TSモデルによって予測されるシーケンスのよりきめ細かいアライメントと最適化を駆動する。
実験により、W3ARは既存のTSシステムの品質を改善し、目に見えない話者に対するゼロショットロバスト性を強化することが示された。
論文 参考訳(メタデータ) (2025-11-12T17:30:13Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Quantize More, Lose Less: Autoregressive Generation from Residually Quantized Speech Representations [26.938560887095658]
既存の自己回帰的アプローチは、しばしば大きな情報損失を被るシングルコードブック表現に依存している。
我々は、新しいオーディオであるQDAC上に構築された新しいTSフレームワークであるQTTSを提案する。
実験により,提案フレームワークは,ベースラインよりも高い合成品質を実現し,表現的コンテンツを保存できることが実証された。
論文 参考訳(メタデータ) (2025-07-16T12:47:09Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - Continual Learning in Machine Speech Chain Using Gradient Episodic Memory [9.473861847584843]
本稿では,ASRにおける継続学習を実現するために,機械学習チェーンフレームワークを活用した新しいアプローチを提案する。
機械音声連鎖にTTS(text-to-speech)コンポーネントを組み込むことで,GEMに必要な再生機構をサポートする。
LJ音声データセットを用いて,本手法が従来の微調整およびマルチタスク学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-11-27T13:19:20Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。