論文の概要: YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls
- arxiv url: http://arxiv.org/abs/2412.09168v1
- Date: Thu, 12 Dec 2024 10:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:30:51.672118
- Title: YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls
- Title(参考訳): YingSound:マルチモーダル・チェーン・オブ・サート制御による映像誘導音効果生成
- Authors: Zihao Chen, Haomin Zhang, Xinhan Di, Haoyu Wang, Sizhe Shan, Junjie Zheng, Yunming Liang, Yihan Fan, Xinfa Zhu, Wenjie Tian, Yihua Wang, Chaofan Ding, Lei Xie,
- Abstract要約: YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
- 参考スコア(独自算出の注目度): 10.429203168607147
- License:
- Abstract: Generating sound effects for product-level videos, where only a small amount of labeled data is available for diverse scenes, requires the production of high-quality sounds in few-shot settings. To tackle the challenge of limited labeled data in real-world scenes, we introduce YingSound, a foundation model designed for video-guided sound generation that supports high-quality audio generation in few-shot settings. Specifically, YingSound consists of two major modules. The first module uses a conditional flow matching transformer to achieve effective semantic alignment in sound generation across audio and visual modalities. This module aims to build a learnable audio-visual aggregator (AVA) that integrates high-resolution visual features with corresponding audio features at multiple stages. The second module is developed with a proposed multi-modal visual-audio chain-of-thought (CoT) approach to generate finer sound effects in few-shot settings. Finally, an industry-standard video-to-audio (V2A) dataset that encompasses various real-world scenarios is presented. We show that YingSound effectively generates high-quality synchronized sounds across diverse conditional inputs through automated evaluations and human studies. Project Page: \url{https://giantailab.github.io/yingsound/}
- Abstract(参考訳): 少量のラベル付きデータが多様なシーンで利用できる製品レベルのビデオのサウンドエフェクトを生成するには、数ショット設定で高品質なサウンドを生成する必要がある。
そこで本研究では,映像誘導音声生成のための基礎モデルであるYingSoundを紹介する。
具体的には、YingSoundは2つの主要なモジュールから構成される。
最初のモジュールは条件付きフローマッチング変換器を使用して、音声と視覚のモーダルをまたいだ音声生成において効果的な意味的アライメントを実現する。
このモジュールは学習可能なオーディオ視覚アグリゲータ(AVA)を構築することを目的としており、複数のステージで高解像度の視覚機能と対応するオーディオ機能を統合する。
第2のモジュールはマルチモーダル・ビジュアル・オーディオ・チェーン・オブ・シント (CoT) アプローチで開発され、より微細な音響効果を数ショット設定で生成する。
最後に、様々な現実シナリオを含む業界標準のV2Aデータセットを提示する。
本稿では,YingSoundが自動評価と人的研究を通じて,多様な条件入力にまたがる高品質な同期音を効果的に生成することを示す。
プロジェクトページ: \url{https://giantailab.github.io/yingsound/}
関連論文リスト
- Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。
我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。
本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。