論文の概要: Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2506.19774v1
- Date: Tue, 24 Jun 2025 16:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.725778
- Title: Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation
- Title(参考訳): Kling-Foley: 高品質ビデオ・オーディオ生成のためのマルチモーダル拡散変換器
- Authors: Jun Wang, Xijuan Zeng, Chunyu Qiang, Ruilong Chen, Shiyao Wang, Le Wang, Wangjing Zhou, Pengfei Cai, Jiahui Zhao, Nan Li, Zihan Li, Yuzhe Liang, Xiaopeng Wang, Haorui Zheng, Ming Wen, Kang Yin, Yiran Wang, Nan Li, Feng Deng, Liang Dong, Chen Zhang, Di Zhang, Kun Gai,
- Abstract要約: ビデオコンテンツに同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・ツー・オーディオ生成モデルを提案する。
実験の結果,Kling-Foleyはフローマッチングを訓練し,新たな音響視覚SOTA性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 27.20097004987987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Kling-Foley, a large-scale multimodal Video-to-Audio generation model that synthesizes high-quality audio synchronized with video content. In Kling-Foley, we introduce multimodal diffusion transformers to model the interactions between video, audio, and text modalities, and combine it with a visual semantic representation module and an audio-visual synchronization module to enhance alignment capabilities. Specifically, these modules align video conditions with latent audio elements at the frame level, thereby improving semantic alignment and audio-visual synchronization. Together with text conditions, this integrated approach enables precise generation of video-matching sound effects. In addition, we propose a universal latent audio codec that can achieve high-quality modeling in various scenarios such as sound effects, speech, singing, and music. We employ a stereo rendering method that imbues synthesized audio with a spatial presence. At the same time, in order to make up for the incomplete types and annotations of the open-source benchmark, we also open-source an industrial-level benchmark Kling-Audio-Eval. Our experiments show that Kling-Foley trained with the flow matching objective achieves new audio-visual SOTA performance among public models in terms of distribution matching, semantic alignment, temporal alignment and audio quality.
- Abstract(参考訳): Kling-Foleyは、ビデオコンテンツと同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・オーディオ生成モデルである。
Kling-Foleyでは、映像、音声、テキストのモーダル間の相互作用をモデル化するマルチモーダル拡散変換器を導入し、それを視覚意味表現モジュールとオーディオ視覚同期モジュールと組み合わせてアライメント機能を強化する。
具体的には、これらのモジュールは、映像条件をフレームレベルで遅延オーディオ要素と整列させ、セマンティックアライメントとオーディオ-視覚同期を改善する。
テキスト条件とともに、この統合されたアプローチは、ビデオマッチングの音響効果を正確に生成することを可能にする。
さらに,音響効果,音声,歌唱,音楽といった様々なシナリオにおいて,高品質なモデリングを実現することができる汎用潜在オーディオコーデックを提案する。
合成音声に空間的存在感を付与するステレオレンダリング手法を用いる。
同時に、オープンソースベンチマークの不完全な型とアノテーションを補うために、産業レベルのベンチマークであるKling-Audio-Evalもオープンソース化しました。
実験の結果,Kling-Foleyはフローマッチングの目的を訓練し,分布マッチング,セマンティックアライメント,時間的アライメント,オーディオ品質の観点から,パブリックモデル間の新たな音声視覚SOTA性能を実現することがわかった。
関連論文リスト
- UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation [44.21422404659117]
UniFormはマルチタスク拡散変換器であり、共有潜在空間における音声と視覚のモダリティを共同で生成する。
単一の拡散プロセスは、音声とビデオの両方をモデル化し、音と視覚の固有の相関をキャプチャする。
大規模言語モデルと大規模テキスト・オーディオ・ビデオ複合データセットを活用することで、UniFormは以前のアプローチよりも優れた生成多様性を実現する。
論文 参考訳(メタデータ) (2025-02-06T09:18:30Z) - MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2024-12-12T10:55:57Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。