論文の概要: Guided by the Plan: Enhancing Faithful Autoregressive Text-to-Audio Generation with Guided Decoding
- arxiv url: http://arxiv.org/abs/2601.14304v1
- Date: Sun, 18 Jan 2026 07:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.087747
- Title: Guided by the Plan: Enhancing Faithful Autoregressive Text-to-Audio Generation with Guided Decoding
- Title(参考訳): ガイドド・デコーディングによる忠実な自己回帰型テキスト・ツー・オーディオ生成の実現
- Authors: Juncheng Wang, Zhe Hu, Chao Xu, Siyue Ren, Yuxiang Feng, Yang Liu, Baigui Sun, Shujun Wang,
- Abstract要約: Plan-Criticは、aGAEにインスパイアされた目標で訓練された軽量補助モデルであり、一部世代から最終的な命令追従品質を予測する。
Plan-Criticは、ARベースラインよりも10ポイント改善されたCLAPスコアを実現している。
この研究は、因果生成とグローバルセマンティックアライメントのギャップを埋め、厳密な自己回帰モデルさえも前方に計画できることを実証する。
- 参考スコア(独自算出の注目度): 25.824708878012753
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autoregressive (AR) models excel at generating temporally coherent audio by producing tokens sequentially, yet they often falter in faithfully following complex textual prompts, especially those describing complex sound events. We uncover a surprising capability in AR audio generators: their early prefix tokens implicitly encode global semantic attributes of the final output, such as event count and sound-object category, revealing a form of implicit planning. Building on this insight, we propose Plan-Critic, a lightweight auxiliary model trained with a Generalized Advantage Estimation (GAE)-inspired objective to predict final instruction-following quality from partial generations. At inference time, Plan-Critic enables guided exploration: it evaluates candidate prefixes early, prunes low-fidelity trajectories, and reallocates computation to high-potential planning seeds. Our Plan-Critic-guided sampling achieves up to a 10-point improvement in CLAP score over the AR baseline-establishing a new state of the art in AR text-to-audio generation-while maintaining computational parity with standard best-of-N decoding. This work bridges the gap between causal generation and global semantic alignment, demonstrating that even strictly autoregressive models can plan ahead.
- Abstract(参考訳): 自己回帰(AR)モデルは、トークンを逐次生成することで時間的に一貫性のある音声を生成するのに優れるが、複雑なテキストのプロンプト、特に複雑な音声イベントを記述するものを忠実に追従する。
アーリープレフィックストークンは、イベントカウントやサウンドオブジェクトカテゴリといった最終出力のグローバルな意味的属性を暗黙的にエンコードし、暗黙的な計画形式を明らかにする。
この知見に基づいて,GAE(Generalized Advantage Estimation)に着想を得た軽量補助モデルPlan-Criticを提案する。
予測時には、Plan-Criticは、早期に候補接頭辞を評価し、低忠実度軌道を示し、計算を高能率な計画種に再配置する、ガイド付き探索を可能にする。
我々のPlan-Critic-Guided sampleは、ARベースラインよりもCLAPスコアが最大10ポイント向上し、標準のベスト・オブ・Nデコーディングによる計算値の維持を維持しながら、ARテキスト・オーディオ生成における新しい最先端を確立できる。
この研究は、因果生成とグローバルセマンティックアライメントのギャップを埋め、厳密な自己回帰モデルさえも前方に計画できることを実証する。
関連論文リスト
- Quantize More, Lose Less: Autoregressive Generation from Residually Quantized Speech Representations [26.938560887095658]
既存の自己回帰的アプローチは、しばしば大きな情報損失を被るシングルコードブック表現に依存している。
我々は、新しいオーディオであるQDAC上に構築された新しいTSフレームワークであるQTTSを提案する。
実験により,提案フレームワークは,ベースラインよりも高い合成品質を実現し,表現的コンテンツを保存できることが実証された。
論文 参考訳(メタデータ) (2025-07-16T12:47:09Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-08-16T21:48:53Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - A-JEPA: Joint-Embedding Predictive Architecture Can Listen [35.308323314848735]
本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAについて紹介する。
A-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチをエンコードし、よく設計された場所でサンプリングされた領域の表現を予測する。
論文 参考訳(メタデータ) (2023-11-27T13:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。