論文の概要: Video-based Music Generation
- arxiv url: http://arxiv.org/abs/2602.07063v1
- Date: Thu, 05 Feb 2026 13:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.415224
- Title: Video-based Music Generation
- Title(参考訳): ビデオによる音楽生成
- Authors: Serkan Sulun,
- Abstract要約: この論文は、高速で自由で自動的なソリューションであるEMSYNCを提示し、入力ビデオに合わせた音楽を生成する。
私たちのモデルは感情的にもリズム的にもビデオと同期する音楽を生成します。
我々は,Ekman-6とMovieNetの最先端結果を得ることにより,本手法の一般化能力を示す。
- 参考スコア(独自算出の注目度): 1.5229257192293202
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the volume of video content on the internet grows rapidly, finding a suitable soundtrack remains a significant challenge. This thesis presents EMSYNC (EMotion and SYNChronization), a fast, free, and automatic solution that generates music tailored to the input video, enabling content creators to enhance their productions without composing or licensing music. Our model creates music that is emotionally and rhythmically synchronized with the video. A core component of EMSYNC is a novel video emotion classifier. By leveraging pretrained deep neural networks for feature extraction and keeping them frozen while training only fusion layers, we reduce computational complexity while improving accuracy. We show the generalization abilities of our method by obtaining state-of-the-art results on Ekman-6 and MovieNet. Another key contribution is a large-scale, emotion-labeled MIDI dataset for affective music generation. We then present an emotion-based MIDI generator, the first to condition on continuous emotional values rather than discrete categories, enabling nuanced music generation aligned with complex emotional content. To enhance temporal synchronization, we introduce a novel temporal boundary conditioning method, called "boundary offset encodings," aligning musical chords with scene changes. Combining video emotion classification, emotion-based music generation, and temporal boundary conditioning, EMSYNC emerges as a fully automatic video-based music generator. User studies show that it consistently outperforms existing methods in terms of music richness, emotional alignment, temporal synchronization, and overall preference, setting a new state-of-the-art in video-based music generation.
- Abstract(参考訳): インターネット上のビデオコンテンツの量が急速に増加するにつれて、適切なサウンドトラックを見つけることは大きな課題である。
この論文では、EMSYNC(Emotion and SynChronization)という、入力ビデオに合わせた高速で自由で自動的なソリューションを提示し、コンテンツ制作者が作曲やライセンシングなしに自分たちのプロダクションを強化する。
私たちのモデルは感情的にもリズム的にもビデオと同期する音楽を生成します。
EMSYNCのコアコンポーネントは、新しいビデオ感情分類器である。
事前訓練された深層ニューラルネットワークを特徴抽出に利用し、融合層のみをトレーニングしながら凍結し続けることにより、計算複雑性を低減し、精度を向上する。
我々は,Ekman-6とMovieNetの最先端結果を得ることにより,本手法の一般化能力を示す。
もうひとつの重要な貢献は、感情的な音楽生成のための大規模な感情ラベル付きMIDIデータセットである。
次に、感情に基づくMIDIジェネレータを提案する。これは、個別のカテゴリーではなく、連続的な感情的価値を条件付ける最初の方法であり、複雑な感情的内容に整合したニュアンスな音楽生成を可能にする。
時間的同期性を高めるため、「境界オフセット符号化(boundary offset encodings)」と呼ばれる新しい時間的境界条件付き手法を導入する。
映像感情分類、感情に基づく音楽生成、時間境界条件付けを組み合わせることで、EMSYNCは完全自動ビデオベース音楽生成装置として出現する。
ユーザスタディでは、音楽の豊かさ、感情的アライメント、時間的同期、全体的な嗜好といった点で、既存の手法を一貫して上回り、ビデオベースの音楽生成において新たな最先端を築き上げている。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。
我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。
このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:52:16Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - Video Soundtrack Generation by Aligning Emotions and Temporal Boundaries [1.1743167854433303]
EMSYNCはビデオベースのシンボリック音楽生成モデルであり、音楽とビデオの感情的内容と時間的境界を一致させる。
本研究では,音節をシーンカットで予測・調整できる新しい時間的条件付け機構である境界オフセットを導入する。
主観的聴取テストにおいて、EMSYNCは、音楽理論を意識した参加者だけでなく、一般の聴取者に対しても、すべての主観的尺度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2025-02-14T13:32:59Z) - Emotion-Guided Image to Music Generation [0.5461938536945723]
本稿では,感情誘導型画像から音楽への生成フレームワークを提案する。
特定のイメージの感情的なトーンに合わせて音楽を生成する。
このモデルはCNN-Transformerアーキテクチャを採用しており、訓練済みのCNN画像特徴抽出器と3つのTransformerエンコーダを備えている。
論文 参考訳(メタデータ) (2024-10-29T17:47:51Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - EmoGene: Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
EmoGeneは、正確な感情表現を備えた高忠実でオーディオ駆動型ビデオポートレートのためのフレームワークである。
本手法では,顔のランドマークを生成するために,可変オートエンコーダ(VAE)ベースのオーディオ・トゥ・モーション・モジュールを用いる。
NeRFベースの感情ビデオモジュールは、リアルな感情的なトーキングヘッドビデオを表示する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。