論文の概要: VividVoice: A Unified Framework for Scene-Aware Visually-Driven Speech Synthesis
- arxiv url: http://arxiv.org/abs/2602.02591v1
- Date: Sun, 01 Feb 2026 07:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.959347
- Title: VividVoice: A Unified Framework for Scene-Aware Visually-Driven Speech Synthesis
- Title(参考訳): VividVoice: シーン認識型視覚駆動音声合成のための統一フレームワーク
- Authors: Chengyuan Ma, Jiawei Jin, Ruijie Xiong, Chunxiang Jin, Canxiang Yan, Wenming Yang,
- Abstract要約: 本稿では,既存の音声生成モデルの限界に対処するタスク・シーン・アウェア・ビジュアル・ドリブン・音声合成を提案する。
データ不足とモダリティデカップリングという2つのコア課題に対処するための統合生成フレームワークであるVividVoiceを提案する。
VividVoiceは,音声の忠実度,コンテンツ明瞭度,マルチモーダル整合性において,既存のベースラインモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 33.07214721477614
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce and define a novel task-Scene-Aware Visually-Driven Speech Synthesis, aimed at addressing the limitations of existing speech generation models in creating immersive auditory experiences that align with the real physical world. To tackle the two core challenges of data scarcity and modality decoupling, we propose VividVoice, a unified generative framework. First, we constructed a large-scale, high-quality hybrid multimodal dataset, Vivid-210K, which, through an innovative programmatic pipeline, establishes a strong correlation between visual scenes, speaker identity, and audio for the first time. Second, we designed a core alignment module, D-MSVA, which leverages a decoupled memory bank architecture and a cross-modal hybrid supervision strategy to achieve fine-grained alignment from visual scenes to timbre and environmental acoustic features. Both subjective and objective experimental results provide strong evidence that VividVoice significantly outperforms existing baseline models in terms of audio fidelity, content clarity, and multimodal consistency. Our demo is available at https://chengyuann.github.io/VividVoice/.
- Abstract(参考訳): 本研究では,既存の音声生成モデルの限界に対処し,実世界と整合した没入型聴覚体験を創出するタスク・シーン対応視覚駆動音声合成を提案する。
データ不足とモダリティデカップリングという2つの中核的課題に対処するために,統合生成フレームワークであるVividVoiceを提案する。
まず,大規模で高品質なハイブリッドマルチモーダルデータセットVivid-210Kを構築した。
第2に、分離メモリバンクアーキテクチャとクロスモーダルハイブリッド監視戦略を活用するコアアライメントモジュールD-MSVAを設計し、視覚シーンから音色・環境音響特徴への微粒なアライメントを実現する。
主観的および客観的な実験結果は、VividVoiceが既存のベースラインモデルよりも音声の忠実度、コンテンツ明瞭度、マルチモーダル整合性において著しく優れていることを示す。
私たちのデモはhttps://chengyuann.github.io/VividVoice/で公開されています。
関連論文リスト
- JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation [112.614973927778]
ジョイントオーディオビデオ生成(JAVG)は、テキスト記述から同期的で意味的に整合した音と視覚を生成する。
本稿では,JAVGの統一モデリングと最適化のためのフレームワークであるJavisDiT++を提案する。
本モデルでは,約100万の公開トレーニングエントリで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-22T12:44:28Z) - DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation [23.171175300622675]
制御可能な人中心オーディオビデオ生成のための統一的なフレームワークを提案する。
DreamID-Omniは、ビデオ、オーディオ、オーディオ・ビジュアルの一貫性をまたいだ総合的な最先端のパフォーマンスを実現する。
学術研究と商用レベルのアプリケーションの間のギャップを埋めるために、コードを公開します。
論文 参考訳(メタデータ) (2026-02-12T16:41:52Z) - The World is Not Mono: Enabling Spatial Understanding in Large Audio-Language Models [17.675850481660863]
聴覚場面分析(ASA)のための階層的枠組みを導入する。
本稿では,Qwen2-Audioのようなモデルを用いて,複雑な音響世界を理解し,推論するシステムを提案する。
我々の研究は、大規模モデルの強力な推論能力を総合音響シーン解析に活用するための明確な経路を提供する。
論文 参考訳(メタデータ) (2026-01-06T11:54:47Z) - MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound [5.591620304505415]
この研究は、AVWM (Audio-Visual World Models) のための最初の公式なフレームワークを提示する。
マルチモーダル環境シミュレーションを、部分的に観察可能な決定プロセスとして定式化し、音声・視覚的観察、きめ細かいアクション、タスク報酬を提供する。
本稿では,視覚学習と聴覚学習のバランスをとる新しいモダリティ・エキスパート・アーキテクチャを用いたオーディオ・ビジュアル・コンディショナル・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2025-11-30T13:11:56Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [48.94486508604052]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。
提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。
PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文 参考訳(メタデータ) (2024-12-10T18:51:31Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。