論文の概要: Extending Visual Dynamics for Video-to-Music Generation
- arxiv url: http://arxiv.org/abs/2504.07594v1
- Date: Thu, 10 Apr 2025 09:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:24:46.062784
- Title: Extending Visual Dynamics for Video-to-Music Generation
- Title(参考訳): 映像音楽生成のための視覚ダイナミクスの拡張
- Authors: Xiaohao Liu, Teng Tu, Yunshan Ma, Tat-Seng Chua,
- Abstract要約: DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 51.274561293909926
- License:
- Abstract: Music profoundly enhances video production by improving quality, engagement, and emotional resonance, sparking growing interest in video-to-music generation. Despite recent advances, existing approaches remain limited in specific scenarios or undervalue the visual dynamics. To address these limitations, we focus on tackling the complexity of dynamics and resolving temporal misalignment between video and music representations. To this end, we propose DyViM, a novel framework to enhance dynamics modeling for video-to-music generation. Specifically, we extract frame-wise dynamics features via a simplified motion encoder inherited from optical flow methods, followed by a self-attention module for aggregation within frames. These dynamic features are then incorporated to extend existing music tokens for temporal alignment. Additionally, high-level semantics are conveyed through a cross-attention mechanism, and an annealing tuning strategy benefits to fine-tune well-trained music decoders efficiently, therefore facilitating seamless adaptation. Extensive experiments demonstrate DyViM's superiority over state-of-the-art (SOTA) methods.
- Abstract(参考訳): 音楽は品質、エンゲージメント、感情共鳴を改善して映像制作を大幅に強化し、ビデオ・音楽生成への関心が高まっている。
最近の進歩にもかかわらず、既存のアプローチは特定のシナリオや視覚力学の過小評価に限られている。
これらの制約に対処するために、ダイナミックスの複雑さに対処し、ビデオと音楽の表現の時間的ずれを解決することに焦点を当てる。
そこで我々はDyViMを提案する。DyViMはビデオ・音楽生成のための動的モデリングを強化する新しいフレームワークである。
具体的には、光学フロー法から継承された簡易なモーションエンコーダを用いてフレーム単位の動的特徴を抽出し、次いでフレーム内のアグリゲーションのための自己アテンションモジュールを抽出する。
これらの動的機能は、時間的アライメントのために既存の音楽トークンを拡張するために組み込まれる。
さらに、ハイレベルなセマンティクスは、クロスアテンション機構を通じて伝達され、アニーリングチューニング戦略は、きめよく訓練された音楽デコーダを効率的に調整し、シームレスな適応を容易にする。
大規模な実験は、DyViMが最先端(SOTA)法よりも優れていることを示す。
関連論文リスト
- Video Soundtrack Generation by Aligning Emotions and Temporal Boundaries [1.1743167854433303]
EMSYNCはビデオベースのシンボリック音楽生成モデルであり、音楽とビデオの感情的内容と時間的境界を一致させる。
本研究では,音節をシーンカットで予測・調整できる新しい時間的条件付け機構である境界オフセットを導入する。
主観的聴取テストにおいて、EMSYNCは、音楽理論を意識した参加者だけでなく、一般の聴取者に対しても、すべての主観的尺度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2025-02-14T13:32:59Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - Unfolding Videos Dynamics via Taylor Expansion [5.723852805622308]
ビデオの自己教師型動的学習戦略について紹介する: インスタンス識別のためのビデオ時間差分法(ViDiDi)
ViDiDiは、フレームシーケンスの時間的デリバティブのさまざまな順序を通して、ビデオの異なる側面を観察する。
ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを学習する。
論文 参考訳(メタデータ) (2024-09-04T01:41:09Z) - MAGMA: Music Aligned Generative Motion Autodecoder [15.825872274297735]
VQ-VAE(Vector Quantized-Variational Autoencoder)を用いた2段階のダンス生成手法を提案する。
リブロサを用いたナイーブな音楽特徴抽出と、最先端の音声圧縮アルゴリズムによって生成されたディープオーディオ表現を比較することで、音楽表現の重要性を評価する。
提案手法は,音楽対モーション生成ベンチマークの最先端結果を実現し,より長い動き列をリアルタイムに生成することを可能にする。
論文 参考訳(メタデータ) (2023-09-03T15:21:47Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。