論文の概要: Language Model Based Text-to-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers
- arxiv url: http://arxiv.org/abs/2510.04577v1
- Date: Mon, 06 Oct 2025 08:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.749845
- Title: Language Model Based Text-to-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers
- Title(参考訳): 言語モデルに基づくテキスト・ツー・オーディオ生成:反カジュアルな協調残差変換器
- Authors: Juncheng Wang, Chao Xu, Cheng Yu, Zhe Hu, Haoyu Xie, Guoqi Yu, Lei Shang, Shujun Wang,
- Abstract要約: 因果条件付き複数孤立トランスフォーマーと強化学習による反因果アライメントを用いた新しいLMベースのフレームワークを提案する。
その結果,Sieren は既存の LM および拡散型 T2A システムより優れており,最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 24.722647001947923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While language models (LMs) paired with residual vector quantization (RVQ) tokenizers have shown promise in text-to-audio (T2A) generation, they still lag behind diffusion-based models by a non-trivial margin. We identify a critical dilemma underpinning this gap: incorporating more RVQ layers improves audio reconstruction fidelity but exceeds the generation capacity of conventional LMs. To address this, we first analyze RVQ dynamics and uncover two key limitations: 1) orthogonality of features across RVQ layers hinders effective LMs training, and 2) descending semantic richness in tokens from deeper RVQ layers exacerbates exposure bias during autoregressive decoding. Based on these insights, we propose Siren, a novel LM-based framework that employs multiple isolated transformers with causal conditioning and anti-causal alignment via reinforcement learning. Extensive experiments demonstrate that Siren outperforms both existing LM-based and diffusion-based T2A systems, achieving state-of-the-art results. By bridging the representational strengths of LMs with the fidelity demands of audio synthesis, our approach repositions LMs as competitive contenders against diffusion models in T2A tasks. Moreover, by aligning audio representations with linguistic structures, Siren facilitates a promising pathway toward unified multi-modal generation frameworks.
- Abstract(参考訳): 言語モデル (LM) と残留ベクトル量子化 (RVQ) のトークン化器はテキスト・トゥ・オーディオ (T2A) 生成において有望であるが、それでも拡散モデルよりも非自明なマージンで遅れている。
このギャップを支える重要なジレンマを同定し、より多くのRVQ層を組み込むことで、オーディオ再構成精度は向上するが、従来のLMの生成能力を上回る。
これを解決するために、まずRVQのダイナミクスを分析し、2つの重要な制限を明らかにする。
1)RVQ層にまたがる特徴の直交性は、効果的なLM訓練を妨げ、そして
2)より深いRVQ層からのトークンのセマンティックリッチ化により,自己回帰復号時の露出バイアスが増大する。
これらの知見に基づいて, 因果条件付き複数の孤立トランスフォーマーと, 強化学習による反因果アライメントを併用した, 新規なLMベースのフレームワークであるSierenを提案する。
大規模な実験により、サイレンは既存のLMベースのT2Aシステムと拡散ベースのT2Aシステムの両方より優れており、最先端の結果が得られている。
音声合成の忠実度要求でLMの表現強度をブリッジすることにより,本手法は,T2Aタスクにおける拡散モデルに対する競合要因として,LMを位置づける。
さらに、音声表現を言語構造と整合させることにより、Sirenは統合マルチモーダル生成フレームワークへの有望な経路を促進する。
関連論文リスト
- Quantize More, Lose Less: Autoregressive Generation from Residually Quantized Speech Representations [26.938560887095658]
既存の自己回帰的アプローチは、しばしば大きな情報損失を被るシングルコードブック表現に依存している。
我々は、新しいオーディオであるQDAC上に構築された新しいTSフレームワークであるQTTSを提案する。
実験により,提案フレームワークは,ベースラインよりも高い合成品質を実現し,表現的コンテンツを保存できることが実証された。
論文 参考訳(メタデータ) (2025-07-16T12:47:09Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [81.3306413498174]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
ダビングのための大規模言語モデル(LLM)に基づくフローマッチングアーキテクチャであるFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z) - MTLM: Incorporating Bidirectional Text Information to Enhance Language Model Training in Speech Recognition Systems [8.971049629873185]
MTLMは、3つのトレーニング目標を通じて一方向と双方向の方法を統一する新しいトレーニングパラダイムである。
浅い融合、一方向/双方向のn-best再構成など、複数の復号化戦略をサポートしている。
LibriSpeechデータセットの実験は、MTLMが複数のデコード戦略で一方向トレーニングを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-14T10:21:10Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z) - High-Speed and High-Quality Text-to-Lip Generation [55.20612501355773]
高速かつ高品質なテキスト-リップ生成(HH-T2L)のための新しい並列デコーディングモデルを提案する。
我々は,符号化言語特徴の持続時間を予測するとともに,符号化言語特徴に規定された対象の唇フレームを,非自己回帰的にその持続時間でモデル化する。
GRIDおよびTCD-TIMITデータセットを用いて行った実験により、HH-T2Lは、最先端のAR T2LモデルであるDualLipと比較して、競合品質の唇運動を生成することが示された。
論文 参考訳(メタデータ) (2021-07-14T16:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。