論文の概要: Hierarchical Codec Diffusion for Video-to-Speech Generation
- arxiv url: http://arxiv.org/abs/2604.15923v1
- Date: Fri, 17 Apr 2026 10:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.876654
- Title: Hierarchical Codec Diffusion for Video-to-Speech Generation
- Title(参考訳): 音声合成のための階層型コーデック拡散
- Authors: Jiaxin Ye, Gaoxiang Cong, Chenhui Wang, Xin-Cheng Wen, Zhaoyang Li, Boyuan Cao, Hongming Shan,
- Abstract要約: VTS(Video-to-Speech)の生成は、聴覚信号なしでサイレントビデオから音声を合成することを目的としている。
既存のVTS手法は、粗い話者認識のセマンティクスからきめ細かい韻律的詳細にまたがる音声の階層性を無視している。
我々は、離散音声トークンの固有の階層構造を利用して、強力な音声・視覚的アライメントを実現する新しい階層型コーデックトランスであるHiCoDiTを提案する。
- 参考スコア(独自算出の注目度): 34.08427878034203
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video-to-Speech (VTS) generation aims to synthesize speech from a silent video without auditory signals. However, existing VTS methods disregard the hierarchical nature of speech, which spans coarse speaker-aware semantics to fine-grained prosodic details. This oversight hinders direct alignment between visual and speech features at specific hierarchical levels during property matching. In this paper, leveraging the hierarchical structure of Residual Vector Quantization (RVQ)-based codec, we propose HiCoDiT, a novel Hierarchical Codec Diffusion Transformer that exploits the inherent hierarchy of discrete speech tokens to achieve strong audio-visual alignment. Specifically, since lower-level tokens encode coarse speaker-aware semantics and higher-level tokens capture fine-grained prosody, HiCoDiT employs low-level and high-level blocks to generate tokens at different levels. The low-level blocks condition on lip-synchronized motion and facial identity to capture speaker-aware content, while the high-level blocks use facial expression to modulate prosodic dynamics. Finally, to enable more effective coarse-to-fine conditioning, we propose a dual-scale adaptive instance layer normalization that jointly captures global vocal style through channel-wise normalization and local prosody dynamics through temporal-wise normalization. Extensive experiments demonstrate that HiCoDiT outperforms baselines in fidelity and expressiveness, highlighting the potential of discrete modelling for VTS. The code and speech demo are both available at https://github.com/Jiaxin-Ye/HiCoDiT.
- Abstract(参考訳): VTS(Video-to-Speech)の生成は、聴覚信号なしでサイレントビデオから音声を合成することを目的としている。
しかし、既存のVTS法は、粗い話者認識のセマンティクスから細かな韻律的詳細まで、音声の階層性を無視している。
この監視は、プロパティマッチング中に特定の階層レベルで視覚的特徴と音声的特徴の直接的な一致を妨げる。
本稿では、Residual Vector Quantization(RVQ)ベースのコーデックの階層構造を利用して、離散音声トークンの固有の階層構造を利用して、強い音声・視覚的アライメントを実現する新しい階層型コーデック拡散変換器HiCoDiTを提案する。
特に、低レベルのトークンが粗い話者認識セマンティクスを符号化し、高レベルのトークンがきめ細かな韻律をキャプチャするため、HiCoDiTは低レベルのブロックと高レベルのブロックを使用して異なるレベルのトークンを生成する。
低レベルブロックは唇同期動作の条件と、話者認識コンテンツをキャプチャするための顔認証を、高レベルブロックは表情を使って韻律力学を変調する。
最後に, チャネルワイド正規化と時間ワイド正規化による局所韻律ダイナミクスにより, グローバルな声帯スタイルを同時キャプチャする2段階適応型インスタンス層正規化を提案する。
広汎な実験により、HiCoDiTは、VTSの離散モデリングの可能性を強調し、忠実度と表現性においてベースラインより優れることが示された。
コードと音声のデモはhttps://github.com/Jiaxin-Ye/HiCoDiT.comで公開されている。
関連論文リスト
- X-VC: Zero-shot Streaming Voice Conversion in Codec Space [68.11390597559101]
X-VCはゼロショットストリーミングVCシステムであり、事前訓練されたニューラルネットワークの潜在空間でワンステップ変換を行う。
X-VCは、英語と中国語の両方で最高のストリーミングWERを達成する。
論文 参考訳(メタデータ) (2026-04-14T08:42:10Z) - Beyond Fixed Frames: Dynamic Character-Aligned Speech Tokenization [27.32235541083431]
動的キャラクタアライズされた音声トケナイザであるDyCASTを紹介する。
DyCASTは、訓練中にトークンと文字レベルの言語単位を関連付けることを学ぶ。
また,不確かさを増大させることなく再現性を高める検索拡張復号機構を導入する。
論文 参考訳(メタデータ) (2026-01-30T16:58:40Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。