Fugu-MT 論文翻訳(概要): Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation

論文の概要: Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation

arxiv url: http://arxiv.org/abs/2506.19774v1
Date: Tue, 24 Jun 2025 16:39:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-25 19:48:23.725778
Title: Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation
Title（参考訳）: Kling-Foley: 高品質ビデオ・オーディオ生成のためのマルチモーダル拡散変換器
Authors: Jun Wang, Xijuan Zeng, Chunyu Qiang, Ruilong Chen, Shiyao Wang, Le Wang, Wangjing Zhou, Pengfei Cai, Jiahui Zhao, Nan Li, Zihan Li, Yuzhe Liang, Xiaopeng Wang, Haorui Zheng, Ming Wen, Kang Yin, Yiran Wang, Nan Li, Feng Deng, Liang Dong, Chen Zhang, Di Zhang, Kun Gai,
Abstract要約: ビデオコンテンツに同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・ツー・オーディオ生成モデルを提案する。実験の結果,Kling-Foleyはフローマッチングを訓練し,新たな音響視覚SOTA性能を実現することがわかった。
参考スコア（独自算出の注目度）: 27.20097004987987
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Kling-Foley, a large-scale multimodal Video-to-Audio generation model that synthesizes high-quality audio synchronized with video content. In Kling-Foley, we introduce multimodal diffusion transformers to model the interactions between video, audio, and text modalities, and combine it with a visual semantic representation module and an audio-visual synchronization module to enhance alignment capabilities. Specifically, these modules align video conditions with latent audio elements at the frame level, thereby improving semantic alignment and audio-visual synchronization. Together with text conditions, this integrated approach enables precise generation of video-matching sound effects. In addition, we propose a universal latent audio codec that can achieve high-quality modeling in various scenarios such as sound effects, speech, singing, and music. We employ a stereo rendering method that imbues synthesized audio with a spatial presence. At the same time, in order to make up for the incomplete types and annotations of the open-source benchmark, we also open-source an industrial-level benchmark Kling-Audio-Eval. Our experiments show that Kling-Foley trained with the flow matching objective achieves new audio-visual SOTA performance among public models in terms of distribution matching, semantic alignment, temporal alignment and audio quality.
Abstract（参考訳）: Kling-Foleyは、ビデオコンテンツと同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・オーディオ生成モデルである。 Kling-Foleyでは、映像、音声、テキストのモーダル間の相互作用をモデル化するマルチモーダル拡散変換器を導入し、それを視覚意味表現モジュールとオーディオ視覚同期モジュールと組み合わせてアライメント機能を強化する。具体的には、これらのモジュールは、映像条件をフレームレベルで遅延オーディオ要素と整列させ、セマンティックアライメントとオーディオ-視覚同期を改善する。テキスト条件とともに、この統合されたアプローチは、ビデオマッチングの音響効果を正確に生成することを可能にする。さらに,音響効果,音声,歌唱,音楽といった様々なシナリオにおいて,高品質なモデリングを実現することができる汎用潜在オーディオコーデックを提案する。合成音声に空間的存在感を付与するステレオレンダリング手法を用いる。同時に、オープンソースベンチマークの不完全な型とアノテーションを補うために、産業レベルのベンチマークであるKling-Audio-Evalもオープンソース化しました。実験の結果,Kling-Foleyはフローマッチングの目的を訓練し,分布マッチング,セマンティックアライメント,時間的アライメント,オーディオ品質の観点から,パブリックモデル間の新たな音声視覚SOTA性能を実現することがわかった。

関連論文リスト

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文参考訳（メタデータ） (2025-08-01T16:03:57Z)
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
Audio-Sync Video Generation with Multi-Stream Temporal Control [64.00019697525322]
我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。 MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
論文参考訳（メタデータ） (2025-06-09T17:59:42Z)
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文参考訳（メタデータ） (2025-06-01T04:27:13Z)
UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation [44.21422404659117]
UniFormはマルチタスク拡散変換器であり、共有潜在空間における音声と視覚のモダリティを共同で生成する。単一の拡散プロセスは、音声とビデオの両方をモデル化し、音と視覚の固有の相関をキャプチャする。大規模言語モデルと大規模テキスト・オーディオ・ビデオ複合データセットを活用することで、UniFormは以前のアプローチよりも優れた生成多様性を実現する。
論文参考訳（メタデータ） (2025-02-06T09:18:30Z)
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。 MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。 MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文参考訳（メタデータ） (2024-12-19T18:59:55Z)
YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。数ショット設定で高品質なオーディオ生成をサポートする。本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文参考訳（メタデータ） (2024-12-12T10:55:57Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。