Fugu-MT 論文翻訳(概要): The NES Video-Music Database: A Dataset of Symbolic Video Game Music Paired with Gameplay Videos

論文の概要: The NES Video-Music Database: A Dataset of Symbolic Video Game Music Paired with Gameplay Videos

arxiv url: http://arxiv.org/abs/2404.04420v1
Date: Fri, 5 Apr 2024 21:41:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 21:18:18.384268
Title: The NES Video-Music Database: A Dataset of Symbolic Video Game Music Paired with Gameplay Videos
Title（参考訳）: NES Video-Music Database: ゲームプレイによるシンボリックビデオゲームのデータセット
Authors: Igor Cardoso, Rubens O. Moraes, Lucas N. Ferreira,
Abstract要約: 389のNESゲームから98,940のゲームプレイビデオを含むNES-VMDBという新しいデータセットを紹介した。 NES-VMDBはニンテンドーエンタテインメント・システム・ミュージック・データベース(NES-MDB)上に構築されており、397のNESゲームから5,278曲を収録している。ゲームプレイクリップに条件付きNES音楽を生成するための制御可能な音楽変換器に基づくベースライン手法を提案する。
参考スコア（独自算出の注目度）: 1.8188255328029255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural models are one of the most popular approaches for music generation, yet there aren't standard large datasets tailored for learning music directly from game data. To address this research gap, we introduce a novel dataset named NES-VMDB, containing 98,940 gameplay videos from 389 NES games, each paired with its original soundtrack in symbolic format (MIDI). NES-VMDB is built upon the Nintendo Entertainment System Music Database (NES-MDB), encompassing 5,278 music pieces from 397 NES games. Our approach involves collecting long-play videos for 389 games of the original dataset, slicing them into 15-second-long clips, and extracting the audio from each clip. Subsequently, we apply an audio fingerprinting algorithm (similar to Shazam) to automatically identify the corresponding piece in the NES-MDB dataset. Additionally, we introduce a baseline method based on the Controllable Music Transformer to generate NES music conditioned on gameplay clips. We evaluated this approach with objective metrics, and the results showed that the conditional CMT improves musical structural quality when compared to its unconditional counterpart. Moreover, we used a neural classifier to predict the game genre of the generated pieces. Results showed that the CMT generator can learn correlations between gameplay videos and game genres, but further research has to be conducted to achieve human-level performance.
Abstract（参考訳）: ニューラルモデルは、音楽生成の最も一般的なアプローチの1つですが、ゲームデータから直接音楽を学ぶのに適した、標準的な大きなデータセットはありません。この研究ギャップに対処するために,389のNESゲームから98,940本のゲームプレイビデオを含むNES-VMDBという新しいデータセットを導入し,それぞれがオリジナルのサウンドトラックをシンボリックフォーマット(MIDI)でペアリングする。 NES-VMDBはニンテンドーエンタテインメント・システム・ミュージック・データベース(NES-MDB)上に構築されており、397のNESゲームから5,278曲を収録している。われわれのアプローチでは、オリジナルデータセットの389のゲームの長編ビデオを収集し、15秒のクリップにスライスし、各クリップから音声を抽出する。その後、NES-MDBデータセットの対応する部分を自動的に識別するために、音声フィンガープリントアルゴリズム(Shazamに似ている)を適用した。さらに,制御可能な音楽変換器に基づくベースライン手法を導入し,ゲームプレイクリップを条件としたNES音楽を生成する。提案手法を客観的な測定値を用いて評価した結果, 条件付きCMTは非条件付きCMTに比べて音楽的構造的品質を向上することがわかった。さらに,生成した作品のゲームジャンルを予測するために,ニューラル分類器を用いた。その結果,CMTジェネレータはゲームプレイビデオとゲームジャンルの相関関係を学習できることがわかった。

関連論文リスト

JamendoMaxCaps: A Large Scale Music-caption Dataset with Imputed Metadata [6.230204066837519]
JamendoMaxCapsは、有名なJamendoプラットフォームから20万以上のフリーライセンスの楽器トラックを特徴とする、大規模な音楽キャプチャデータセットである。データセットには、最先端のキャプションモデルによって生成されたキャプションが含まれており、暗黙のメタデータで強化されている。
論文参考訳（メタデータ） (2025-02-11T11:12:19Z)
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文参考訳（メタデータ） (2024-09-11T17:56:48Z)
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。 VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文参考訳（メタデータ） (2024-06-06T17:58:11Z)
Video2Music: Suitable Music Generation from Videos using an Affective Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-02T03:33:00Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-21T08:39:48Z)
MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration [46.19536568693307]
マルチモーダルなビデオオーディオテキスト理解と生成は、狭いがリッチなデータセットの恩恵を受けることができる。本稿では,オープンソースのプラットフォームゲームCoinRunを用いて収集した大規模ビデオオーディオテキストデータセットMUGENについて述べる。我々は375Kビデオクリップ(それぞれ3.2秒)をサンプリングし、人間のアノテーションからテキスト記述を収集する。
論文参考訳（メタデータ） (2022-04-17T17:59:09Z)
InverseMV: Composing Piano Scores with a Convolutional Video-Music Transformer [2.157478102241537]
本稿では,ビデオフレームから自動ピアノ楽譜を生成する新しいアテンションベースモデルVMTを提案する。モデルから生成された音楽を使用することで、潜在的な著作権侵害を防ぐことができる。我々は、ポップミュージックビデオとMIDIファイルの微調整を施した7時間以上のピアノ楽譜からなる新しいデータセットをリリースする。
論文参考訳（メタデータ） (2021-12-31T06:39:28Z)
Tr\"aumerAI: Dreaming Music with StyleGAN [2.578242050187029]
本稿では, ディープ・ミュージックの埋め込みをスタイルGANの埋め込みに直接マッピングするニューラル・ミュージック・ビジュアライザーを提案する。アノテータは10秒の100曲のクリップを聴き、StyleGANが生成した例の中で音楽に合ったイメージを選択した。生成した例は、音声と映像のマッピングが、あるレベルのセグメント内類似性とセグメント間異同を生じさせることを示している。
論文参考訳（メタデータ） (2021-02-09T07:04:22Z)
Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。 APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文参考訳（メタデータ） (2020-11-05T03:13:46Z)
Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文参考訳（メタデータ） (2020-07-21T17:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。