論文の概要: Foley Music: Learning to Generate Music from Videos
- arxiv url: http://arxiv.org/abs/2007.10984v1
- Date: Tue, 21 Jul 2020 17:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 04:37:47.142994
- Title: Foley Music: Learning to Generate Music from Videos
- Title(参考訳): Foley Music:ビデオから音楽を生成する学習
- Authors: Chuang Gan, Deng Huang, Peihao Chen, Joshua B. Tenenbaum, Antonio
Torralba
- Abstract要約: Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
- 参考スコア(独自算出の注目度): 115.41099127291216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Foley Music, a system that can synthesize
plausible music for a silent video clip about people playing musical
instruments. We first identify two key intermediate representations for a
successful video to music generator: body keypoints from videos and MIDI events
from audio recordings. We then formulate music generation from videos as a
motion-to-MIDI translation problem. We present a Graph$-$Transformer framework
that can accurately predict MIDI event sequences in accordance with the body
movements. The MIDI event can then be converted to realistic music using an
off-the-shelf music synthesizer tool. We demonstrate the effectiveness of our
models on videos containing a variety of music performances. Experimental
results show that our model outperforms several existing systems in generating
music that is pleasant to listen to. More importantly, the MIDI representations
are fully interpretable and transparent, thus enabling us to perform music
editing flexibly. We encourage the readers to watch the demo video with audio
turned on to experience the results.
- Abstract(参考訳): 本稿では,楽器を演奏する人々に関するサイレントビデオクリップのために,可塑性楽曲を合成するシステムであるFoley Musicを紹介する。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
次に、動画からの音楽生成をモーション・トゥ・MIDI翻訳問題として定式化する。
我々は、体の動きに応じてmidiイベントシーケンスを正確に予測できるgraph$-$transformerフレームワークを提案する。
MIDIイベントは、市販の音楽シンセサイザーツールを使って、リアルな音楽に変換できる。
我々は,様々な音楽演奏を含むビデオに対して,モデルの有効性を示す。
実験の結果,本モデルは聴き心地の良い音楽を生成する上で,既存のシステムよりも優れていた。
さらに,MIDI表現は完全に解釈可能で透過的であるため,音楽編集を柔軟に行うことができる。
音声でデモビデオを観て、その結果を体験することを、読者に勧める。
関連論文リスト
- Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation
and Editing via Content-based Controls [6.747653154871061]
コントロール可能な音楽生成は、人間-AI音楽の共同創造において重要な役割を担っている。
LLM(Large Language Models)は高品質な音楽を生成できることを示しており、自動回帰生成に重点を置いているため、音楽編集タスクにおける有用性を制限している。
そこで本稿では,自動回帰言語モデルによる楽曲の塗り替え作業へのシームレス対応を実現するための,新しい条件付きファインチューニング(PEFT)手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Using a Bi-directional LSTM Model with Attention Mechanism trained on
MIDI Data for Generating Unique Music [0.25559196081940677]
本稿では,MIDIデータに基づく類似音楽を生成するためのアテンション機構を備えた双方向LSTMモデルを提案する。
モデルが生成する音楽は、モデルがトレーニングする音楽のテーマ/スタイルに従う。
論文 参考訳(メタデータ) (2020-11-02T06:43:28Z) - Audeo: Audio Generation for a Silent Performance Video [17.705770346082023]
本稿では,ピアノを弾くミュージシャンの入力ビデオフレームとして,そのビデオのための音楽を生成する新しいシステムを提案する。
本研究の主な目的は、このような変換の妥当性を探求し、視覚事象と音の関連性を持つための手がかりや構成要素を特定することである。
論文 参考訳(メタデータ) (2020-06-23T00:58:59Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。