論文の概要: VividVoice: A Unified Framework for Scene-Aware Visually-Driven Speech Synthesis
- arxiv url: http://arxiv.org/abs/2602.02591v1
- Date: Sun, 01 Feb 2026 07:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.959347
- Title: VividVoice: A Unified Framework for Scene-Aware Visually-Driven Speech Synthesis
- Title(参考訳): VividVoice: シーン認識型視覚駆動音声合成のための統一フレームワーク
- Authors: Chengyuan Ma, Jiawei Jin, Ruijie Xiong, Chunxiang Jin, Canxiang Yan, Wenming Yang,
- Abstract要約: 本稿では,既存の音声生成モデルの限界に対処するタスク・シーン・アウェア・ビジュアル・ドリブン・音声合成を提案する。
データ不足とモダリティデカップリングという2つのコア課題に対処するための統合生成フレームワークであるVividVoiceを提案する。
VividVoiceは,音声の忠実度,コンテンツ明瞭度,マルチモーダル整合性において,既存のベースラインモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 33.07214721477614
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce and define a novel task-Scene-Aware Visually-Driven Speech Synthesis, aimed at addressing the limitations of existing speech generation models in creating immersive auditory experiences that align with the real physical world. To tackle the two core challenges of data scarcity and modality decoupling, we propose VividVoice, a unified generative framework. First, we constructed a large-scale, high-quality hybrid multimodal dataset, Vivid-210K, which, through an innovative programmatic pipeline, establishes a strong correlation between visual scenes, speaker identity, and audio for the first time. Second, we designed a core alignment module, D-MSVA, which leverages a decoupled memory bank architecture and a cross-modal hybrid supervision strategy to achieve fine-grained alignment from visual scenes to timbre and environmental acoustic features. Both subjective and objective experimental results provide strong evidence that VividVoice significantly outperforms existing baseline models in terms of audio fidelity, content clarity, and multimodal consistency. Our demo is available at https://chengyuann.github.io/VividVoice/.
- Abstract(参考訳): 本研究では,既存の音声生成モデルの限界に対処し,実世界と整合した没入型聴覚体験を創出するタスク・シーン対応視覚駆動音声合成を提案する。
データ不足とモダリティデカップリングという2つの中核的課題に対処するために,統合生成フレームワークであるVividVoiceを提案する。
まず,大規模で高品質なハイブリッドマルチモーダルデータセットVivid-210Kを構築した。
第2に、分離メモリバンクアーキテクチャとクロスモーダルハイブリッド監視戦略を活用するコアアライメントモジュールD-MSVAを設計し、視覚シーンから音色・環境音響特徴への微粒なアライメントを実現する。
主観的および客観的な実験結果は、VividVoiceが既存のベースラインモデルよりも音声の忠実度、コンテンツ明瞭度、マルチモーダル整合性において著しく優れていることを示す。
私たちのデモはhttps://chengyuann.github.io/VividVoice/で公開されています。
関連論文リスト
- Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound [5.591620304505415]
この研究は、AVWM (Audio-Visual World Models) のための最初の公式なフレームワークを提示する。
マルチモーダル環境シミュレーションを、部分的に観察可能な決定プロセスとして定式化し、音声・視覚的観察、きめ細かいアクション、タスク報酬を提供する。
本稿では,視覚学習と聴覚学習のバランスをとる新しいモダリティ・エキスパート・アーキテクチャを用いたオーディオ・ビジュアル・コンディショナル・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2025-11-30T13:11:56Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。