論文の概要: Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation
- arxiv url: http://arxiv.org/abs/2511.09090v1
- Date: Thu, 13 Nov 2025 01:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.405689
- Title: Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation
- Title(参考訳): Diff-V2M:ビデオ・音楽生成のための明示的リズムモデリングを用いた階層的条件拡散モデル
- Authors: Shulei Ji, Zihao Wang, Jiaxing Yu, Xiangyuan Yang, Shuyu Li, Songruoyao Wu, Kejun Zhang,
- Abstract要約: Video-to-music (V2M) の生成は、視覚的コンテンツに合わせて音楽を作成することを目的としている。
階層的条件拡散モデルに基づく一般的なV2MフレームワークであるDiff-V2Mを提案する。
リズムモデリングでは、低分解能メル-スペクトログラム、テンポグラム、オンセット検出機能(ODF)など、いくつかのリズム表現を評価することから始める。
- 参考スコア(独自算出の注目度): 26.273309051211204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-music (V2M) generation aims to create music that aligns with visual content. However, two main challenges persist in existing methods: (1) the lack of explicit rhythm modeling hinders audiovisual temporal alignments; (2) effectively integrating various visual features to condition music generation remains non-trivial. To address these issues, we propose Diff-V2M, a general V2M framework based on a hierarchical conditional diffusion model, comprising two core components: visual feature extraction and conditional music generation. For rhythm modeling, we begin by evaluating several rhythmic representations, including low-resolution mel-spectrograms, tempograms, and onset detection functions (ODF), and devise a rhythmic predictor to infer them directly from videos. To ensure contextual and affective coherence, we also extract semantic and emotional features. All features are incorporated into the generator via a hierarchical cross-attention mechanism, where emotional features shape the affective tone via the first layer, while semantic and rhythmic features are fused in the second cross-attention layer. To enhance feature integration, we introduce timestep-aware fusion strategies, including feature-wise linear modulation (FiLM) and weighted fusion, allowing the model to adaptively balance semantic and rhythmic cues throughout the diffusion process. Extensive experiments identify low-resolution ODF as a more effective signal for modeling musical rhythm and demonstrate that Diff-V2M outperforms existing models on both in-domain and out-of-domain datasets, achieving state-of-the-art performance in terms of objective metrics and subjective comparisons. Demo and code are available at https://Tayjsl97.github.io/Diff-V2M-Demo/.
- Abstract(参考訳): Video-to-music (V2M) の生成は、視覚的コンテンツに合わせて音楽を作成することを目的としている。
しかし,既存の手法では,(1)明示的なリズムモデリングの欠如が視覚的時間的アライメントを妨げること,(2)様々な視覚的特徴を条件音楽生成に効果的に統合すること,の2つの課題が続いている。
これらの問題に対処するために,視覚的特徴抽出と条件付き音楽生成という2つの要素からなる階層的条件拡散モデルに基づく一般的なV2MフレームワークであるDiff-V2Mを提案する。
リズムモデリングでは,低分解能メル-スペクトログラム,テンポグラム,オンセット検出機能(ODF)など,複数のリズム表現を評価し,ビデオから直接推測するリズム予測器を考案する。
文脈的・感情的なコヒーレンスを確保するために,意味的・感情的な特徴も抽出する。
感情的特徴が第1層を介して感情的トーンを形成するとともに、意味的特徴とリズム的特徴が第2のクロスアテンション層に融合する階層的クロスアテンション機構により、すべての特徴がジェネレータに組み込まれる。
機能統合を強化するため,FiLM(Feature-wise linear modulation)や重み付き融合を含む時間ステップ対応の融合戦略を導入し,拡散過程を通じて意味的およびリズム的手がかりを適応的にバランスさせる。
Diff-V2Mは、ドメイン内およびドメイン外両方のデータセットにおいて既存のモデルよりも優れており、客観的なメトリクスと主観的な比較の観点で最先端のパフォーマンスを達成している。
デモとコードはhttps://Tayjsl97.github.io/Diff-V2M-Demo/で公開されている。
関連論文リスト
- DINOv2 Driven Gait Representation Learning for Video-Based Visible-Infrared Person Re-identification [30.593882551803855]
Visible-Infrared person re-identification (VVI-ID) は、視界と赤外線を横断する同じ歩行者をモダリティから回収することを目的としている。
これらの課題に対処するために、DINOv2の豊富な視覚的優位性を活用して、外観に相補的な歩行特徴を学習するゲイト表現学習フレームワークを提案する。
具体的にはセマンティック・アウェア・シルエット・ゲイトラーニング(GL)モデルを提案する。
論文 参考訳(メタデータ) (2025-11-06T11:21:13Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。
本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-25T11:50:23Z) - MF2Summ: Multimodal Fusion for Video Summarization with Temporal Alignment [5.922172844641853]
本稿では,マルチモーダルコンテンツ理解に基づく新しい映像要約モデルであるMF2Summを紹介する。
MF2Summは、特徴抽出、モーダル間アテンション相互作用、特徴融合、セグメント予測、キーショット選択という5段階のプロセスを採用している。
SumMeおよびTVSumデータセットの実験結果から,MF2Summが競合性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-06-12T07:32:51Z) - MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation [10.203209816178552]
MotionRAG-Diffは、Retrieval-Augmented Generationと拡散に基づく改善を統合するハイブリッドフレームワークである。
我々の手法は3つの中核的な革新をもたらす。
動作品質、多様性、音楽-モーション同期の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-03T09:12:48Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Taming Diffusion Models for Music-driven Conducting Motion Generation [1.0624606551524207]
本稿では,Diffusion-Conductorについて述べる。
本稿では,特徴のロバスト性を改善するためのランダムマスキング手法を提案し,幾何損失関数のペアを用いて正規化を付加する。
また,Frechet Gesture Distance (FGD) や Beat Consistency Score (BC) など,より包括的な動作評価のための新しい指標も設計した。
論文 参考訳(メタデータ) (2023-06-15T03:49:24Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。