Fugu-MT 論文翻訳(概要): Foley Music: Learning to Generate Music from Videos

論文の概要: Foley Music: Learning to Generate Music from Videos

arxiv url: http://arxiv.org/abs/2007.10984v1
Date: Tue, 21 Jul 2020 17:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 04:37:47.142994
Title: Foley Music: Learning to Generate Music from Videos
Title（参考訳）: Foley Music:ビデオから音楽を生成する学習
Authors: Chuang Gan, Deng Huang, Peihao Chen, Joshua B. Tenenbaum, Antonio Torralba
Abstract要約: Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
参考スコア（独自算出の注目度）: 115.41099127291216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce Foley Music, a system that can synthesize plausible music for a silent video clip about people playing musical instruments. We first identify two key intermediate representations for a successful video to music generator: body keypoints from videos and MIDI events from audio recordings. We then formulate music generation from videos as a motion-to-MIDI translation problem. We present a Graph$-$Transformer framework that can accurately predict MIDI event sequences in accordance with the body movements. The MIDI event can then be converted to realistic music using an off-the-shelf music synthesizer tool. We demonstrate the effectiveness of our models on videos containing a variety of music performances. Experimental results show that our model outperforms several existing systems in generating music that is pleasant to listen to. More importantly, the MIDI representations are fully interpretable and transparent, thus enabling us to perform music editing flexibly. We encourage the readers to watch the demo video with audio turned on to experience the results.
Abstract（参考訳）: 本稿では,楽器を演奏する人々に関するサイレントビデオクリップのために,可塑性楽曲を合成するシステムであるFoley Musicを紹介する。まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。次に、動画からの音楽生成をモーション・トゥ・MIDI翻訳問題として定式化する。我々は、体の動きに応じてmidiイベントシーケンスを正確に予測できるgraph$-$transformerフレームワークを提案する。 MIDIイベントは、市販の音楽シンセサイザーツールを使って、リアルな音楽に変換できる。我々は,様々な音楽演奏を含むビデオに対して,モデルの有効性を示す。実験の結果,本モデルは聴き心地の良い音楽を生成する上で,既存のシステムよりも優れていた。さらに,MIDI表現は完全に解釈可能で透過的であるため,音楽編集を柔軟に行うことができる。音声でデモビデオを観て、その結果を体験することを、読者に勧める。

関連論文リスト

MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition [4.152843247686306]
MIDI-GPTはコンピュータ支援音楽合成のための生成システムである。楽器の種類、音楽スタイル、音の密度、ポリフォニーレベル、音の持続時間などの属性を条件付けできる。本研究では,MIDI-GPTがトレーニング対象の音楽素材の複製を一貫して回避し,トレーニングデータセットとスタイリスティックに類似した音楽を生成し,属性制御が生成した素材に様々な制約を課すことを実証する実験結果を示す。
論文参考訳（メタデータ） (2025-01-28T15:17:36Z)
Text2midi: Generating Symbolic Music from Captions [7.133321587053803]
本稿では,テキスト記述からMIDIファイルを生成するエンド・ツー・エンド・エンド・モデルであるtext2midiを紹介する。プレトレーニングされたLLMエンコーダを使用してキャプションを処理し、自動回帰変換器デコーダを条件にMIDIシーケンスを生成する。我々は,MIDIファイルを高品質に生成するための総合的な実験評価を行い,自動化された研究と人為的な研究の両方を取り入れた。
論文参考訳（メタデータ） (2024-12-21T08:09:12Z)
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。 MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-10-16T18:44:56Z)
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文参考訳（メタデータ） (2024-09-11T17:56:48Z)
Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文参考訳（メタデータ） (2024-07-02T08:23:38Z)
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。 VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文参考訳（メタデータ） (2024-06-06T17:58:11Z)
Diff-BGM: A Diffusion Model for Video Background Music Generation [16.94631443719866]
ビデオと音楽に関するマルチモーダル情報を提供するために,詳細なアノテーションとショット検出を備えた高品質な音楽ビデオデータセットを提案する。次に,音楽の多様性や音楽と映像のアライメントなど,音楽の質を評価するための評価指標を提案する。 Diff-BGMフレームワークは、ビデオの背景音楽を自動的に生成し、生成過程において異なる信号を用いて音楽の異なる側面を制御する。
論文参考訳（メタデータ） (2024-05-20T09:48:36Z)
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-02T03:33:00Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)
Using a Bi-directional LSTM Model with Attention Mechanism trained on MIDI Data for Generating Unique Music [0.25559196081940677]
本稿では,MIDIデータに基づく類似音楽を生成するためのアテンション機構を備えた双方向LSTMモデルを提案する。モデルが生成する音楽は、モデルがトレーニングする音楽のテーマ/スタイルに従う。
論文参考訳（メタデータ） (2020-11-02T06:43:28Z)
Audeo: Audio Generation for a Silent Performance Video [17.705770346082023]
本稿では,ピアノを弾くミュージシャンの入力ビデオフレームとして,そのビデオのための音楽を生成する新しいシステムを提案する。本研究の主な目的は、このような変換の妥当性を探求し、視覚事象と音の関連性を持つための手がかりや構成要素を特定することである。
論文参考訳（メタデータ） (2020-06-23T00:58:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。