論文の概要: A Comprehensive Survey on Deep Music Generation: Multi-level
Representations, Algorithms, Evaluations, and Future Directions
- arxiv url: http://arxiv.org/abs/2011.06801v1
- Date: Fri, 13 Nov 2020 08:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 00:56:48.538443
- Title: A Comprehensive Survey on Deep Music Generation: Multi-level
Representations, Algorithms, Evaluations, and Future Directions
- Title(参考訳): 深層音楽生成に関する包括的調査--多レベル表現、アルゴリズム、評価、今後の方向性
- Authors: Shulei Ji, Jing Luo, Xinyu Yang
- Abstract要約: 本稿では,深層学習を用いた音楽生成レベルの違いによる様々な作曲課題の概要について述べる。
さらに,多様なタスクに適したデータセットを要約し,音楽表現,評価方法,および異なるレベルの課題について考察し,最後にいくつかの今後の方向性を指摘する。
- 参考スコア(独自算出の注目度): 10.179835761549471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The utilization of deep learning techniques in generating various contents
(such as image, text, etc.) has become a trend. Especially music, the topic of
this paper, has attracted widespread attention of countless researchers.The
whole process of producing music can be divided into three stages,
corresponding to the three levels of music generation: score generation
produces scores, performance generation adds performance characteristics to the
scores, and audio generation converts scores with performance characteristics
into audio by assigning timbre or generates music in audio format directly.
Previous surveys have explored the network models employed in the field of
automatic music generation. However, the development history, the model
evolution, as well as the pros and cons of same music generation task have not
been clearly illustrated. This paper attempts to provide an overview of various
composition tasks under different music generation levels, covering most of the
currently popular music generation tasks using deep learning. In addition, we
summarize the datasets suitable for diverse tasks, discuss the music
representations, the evaluation methods as well as the challenges under
different levels, and finally point out several future directions.
- Abstract(参考訳): 様々なコンテンツ(画像、テキストなど)の生成における深層学習技術の利用がトレンドとなっている。
楽譜生成は楽譜生成の3段階,演奏生成は楽譜に演奏特性を付加し,音響生成は音色を割り当てたり,直接音響形式で音楽を生成することで,演奏特性を持つ楽譜を音響に変換する。
これまでの調査では、自動音楽生成の分野で採用されているネットワークモデルを調査した。
しかしながら、開発の歴史やモデルの進化、同じ音楽生成タスクの長所や短所は明確に示されていない。
本稿では,様々な音楽生成レベルにおける様々な作曲課題の概観を提供し,現在一般的な音楽生成課題のほとんどをディープラーニングを用いてカバーする。
さらに,多様なタスクに適したデータセットを要約し,音楽表現,評価方法,および異なるレベルの課題について考察し,最後にいくつかの今後の方向性を指摘する。
関連論文リスト
- MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Multi-Genre Music Transformer -- Composing Full Length Musical Piece [0.0]
このプロジェクトの目的は,より適応的な学習プロセスを通じて楽曲の制作を学ぶマルチジェネラルトランスフォーマーを実装することである。
我々は多言語複合語データセットを構築し、このデータセットに基づいて訓練した線形変換器を実装した。
私たちはこのMulti-Genre Transformerと呼んでいます。
論文 参考訳(メタデータ) (2023-01-06T05:27:55Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Evaluating Deep Music Generation Methods Using Data Augmentation [13.72212417973239]
我々は,アルゴリズムによって生成された楽曲のサンプルを評価するための,均質で客観的な枠組みに焦点をあてる。
生成した楽曲の楽譜評価は行わず,感情や気分やテーマに関する意味のある情報が含まれているかを探る。
論文 参考訳(メタデータ) (2021-12-31T20:35:46Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - Personalized Popular Music Generation Using Imitation and Structure [1.971709238332434]
そこで本研究では,特定の例のシード曲から構造,メロディ,和音,バススタイルを捉え,模倣できる統計的機械学習モデルを提案する。
10曲のポップソングによる評価は,我々の新しい表現と手法が高品質なスタイリスティック音楽を作り出すことができることを示している。
論文 参考訳(メタデータ) (2021-05-10T23:43:00Z) - From Artificial Neural Networks to Deep Learning for Music Generation --
History, Concepts and Trends [0.0]
本稿では,ディープラーニング技術に基づく音楽生成のチュートリアルを提供する。
1980年代後半から、音楽生成のための人工ニューラルネットワークを用いて、いくつかの初期の作品を分析している。
論文 参考訳(メタデータ) (2020-04-07T00:33:56Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。