論文の概要: VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
- arxiv url: http://arxiv.org/abs/2509.24773v2
- Date: Tue, 30 Sep 2025 05:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.416165
- Title: VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
- Title(参考訳): VSSFlow: 共同学習による映像調和音声と音声生成の統合
- Authors: Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song,
- Abstract要約: V2SタスクとVisualTTSタスクをシームレスに統合したフローマッチングフレームワークであるVSSFlowを提案する。
VSSFlowは、学習段階に余分な設計を加えることなく、音声および音声生成のためのエンドツーエンドのジョイントラーニングプロセスの恩恵を受ける。
- 参考スコア(独自算出の注目度): 38.428748527627114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-conditioned sound and speech generation, encompassing video-to-sound (V2S) and visual text-to-speech (VisualTTS) tasks, are conventionally addressed as separate tasks, with limited exploration to unify them within a signle framework. Recent attempts to unify V2S and VisualTTS face challenges in handling distinct condition types (e.g., heterogeneous video and transcript conditions) and require complex training stages. Unifying these two tasks remains an open problem. To bridge this gap, we present VSSFlow, which seamlessly integrates both V2S and VisualTTS tasks into a unified flow-matching framework. VSSFlow uses a novel condition aggregation mechanism to handle distinct input signals. We find that cross-attention and self-attention layer exhibit different inductive biases in the process of introducing condition. Therefore, VSSFlow leverages these inductive biases to effectively handle different representations: cross-attention for ambiguous video conditions and self-attention for more deterministic speech transcripts. Furthermore, contrary to the prevailing belief that joint training on the two tasks requires complex training strategies and may degrade performance, we find that VSSFlow benefits from the end-to-end joint learning process for sound and speech generation without extra designs on training stages. Detailed analysis attributes it to the learned general audio prior shared between tasks, which accelerates convergence, enhances conditional generation, and stabilizes the classifier-free guidance process. Extensive experiments demonstrate that VSSFlow surpasses the state-of-the-art domain-specific baselines on both V2S and VisualTTS benchmarks, underscoring the critical potential of unified generative models.
- Abstract(参考訳): V2S(V2S)とVisualTTS(Visual Text-to-Speech)のタスクを含むビデオ条件付き音声と音声の生成は、従来は個別のタスクとして扱われており、手話フレームワーク内でそれらを統一するための限られた探索である。
V2SとVisualTTSを統一しようとする最近の試みは、異なる条件タイプ(例えば、異種ビデオと転写条件)を扱い、複雑なトレーニング段階を必要とする問題に直面している。
これら2つのタスクを統合することは、依然としてオープンな問題である。
このギャップを埋めるために、V2SとVisualTTSの両方のタスクをシームレスに統合したフローマッチングフレームワークであるVSSFlowを紹介します。
VSSFlowは、異なる入力信号を処理するために、新しい条件集約メカニズムを使用している。
その結果,クロスアテンション層と自己アテンション層は条件導入の過程で異なる誘導バイアスを示すことがわかった。
そのため、VSSFlowはこれらの帰納バイアスを利用して、不明瞭なビデオ条件に対するクロスアテンションと、より決定論的な音声書き起こしに対する自己アテンションという、異なる表現を効果的に扱う。
さらに,2つの課題に対する共同学習には複雑な訓練戦略が必要であり,性能が低下する可能性があるという一般的な信念とは対照的に,VSSFlowは学習段階に余分な設計を加えることなく,音・音声生成のためのエンドツーエンドのジョイントラーニングプロセスから恩恵を受けることが判明した。
詳細な分析は、タスク間で事前に共有される学習された一般的な音声に特化しており、収束を加速し、条件付き生成を促進し、分類器なし指導プロセスを安定化させる。
大規模な実験により、VSSFlowはV2SとVisualTTSベンチマークの両方で最先端のドメイン固有のベースラインを超越し、統一生成モデルの重要な可能性を示している。
関連論文リスト
- SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。
これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。
これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文 参考訳(メタデータ) (2024-11-29T05:55:20Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation [7.124066540020968]
AVSS (Audio-Visual Semantic) は映像中の音源の画素レベルのローカライゼーションを実現することを目的としており、AVSS (Audio-Visual Semantic) は音声視覚シーンの意味的理解を追求している。
従来の方法は、エンドツーエンドのトレーニングにおいて、このマッシュアップを扱うのに苦労しており、学習とサブ最適化が不十分である。
textitStepping Stonesと呼ばれる2段階のトレーニング戦略を提案し、AVSSタスクを2つの単純なサブタスクに分解する。
論文 参考訳(メタデータ) (2024-07-16T15:08:30Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Simultaneous or Sequential Training? How Speech Representations
Cooperate in a Multi-Task Self-Supervised Learning System [12.704529528199064]
最近の研究は、表現学習のための自己教師付き学習(SSL)と視覚接地音声(VGS)処理機構を組み合わせたものである。
マルチタスク学習システムとして,wav2vec 2.0ベースのSSLとトランスフォーマーベースのVGSの協調最適化について検討した。
論文 参考訳(メタデータ) (2023-06-05T15:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。