論文の概要: Deep learning for music generation. Four approaches and their comparative evaluation
- arxiv url: http://arxiv.org/abs/2504.02586v1
- Date: Thu, 03 Apr 2025 13:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:53:27.776463
- Title: Deep learning for music generation. Four approaches and their comparative evaluation
- Title(参考訳): 音楽生成のための深層学習 : 4つのアプローチとその比較評価
- Authors: Razvan Paroiu, Stefan Trausan-Matu,
- Abstract要約: メロディーの最初のセットは、言語モデルとして使用されるわずかに修正されたビジュアルトランスフォーマーニューラルネットワークによって生成される。
第2の旋律は、チャットソナライゼーションと古典的なトランスフォーマーニューラルネットワークを組み合わせることで生成される。
第3の旋律は、シリンジャーリズム理論と古典的なトランスフォーマーニューラルネットワークを組み合わせることで生成される。
第4の旋律はOpenAIが提供するGPT3変換器を用いて生成される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces four different artificial intelligence algorithms for music generation and aims to compare these methods not only based on the aesthetic quality of the generated music but also on their suitability for specific applications. The first set of melodies is produced by a slightly modified visual transformer neural network that is used as a language model. The second set of melodies is generated by combining chat sonification with a classic transformer neural network (the same method of music generation is presented in a previous research), the third set of melodies is generated by combining the Schillinger rhythm theory together with a classic transformer neural network, and the fourth set of melodies is generated using GPT3 transformer provided by OpenAI. A comparative analysis is performed on the melodies generated by these approaches and the results indicate that significant differences can be observed between them and regarding the aesthetic value of them, GPT3 produced the most pleasing melodies, and the newly introduced Schillinger method proved to generate better sounding music than previous sonification methods.
- Abstract(参考訳): 本稿では,音楽生成のための4つの異なる人工知能アルゴリズムを導入し,これらの手法を比較することを目的としている。
メロディーの最初のセットは、言語モデルとして使用されるわずかに修正されたビジュアルトランスフォーマーニューラルネットワークによって生成される。
第2の旋律は、チャット音素化と古典的変圧器ニューラルネット(以前の研究でも同様)を組み合わせることで生成され、第3の旋律はシリンジャーリズム理論と古典的変圧器ニューラルネットを組み合わせて生成され、第4の旋律はOpenAIが提供するGPT3トランスフォーマーを用いて生成される。
これらの手法により生成されたメロディについて比較分析を行い、その結果、両者の間に有意な差異が見られ、また、その美的価値について、GPT3が最も喜ばしいメロディを生成し、新たに導入されたシリンガー法は、従来の音化法よりも優れた音色を発生させることが証明された。
関連論文リスト
- C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - A Survey of Music Generation in the Context of Interaction [3.6522809408725223]
機械学習は、メロディーとポリフォニックの両方の曲の作曲と生成に成功している。
これらのモデルのほとんどは、ライブインタラクションによる人間と機械の共創には適していない。
論文 参考訳(メタデータ) (2024-02-23T12:41:44Z) - Choir Transformer: Generating Polyphonic Music with Relative Attention
on Transformer [4.866650264773479]
そこで我々はChoir Transformerというポリフォニック音楽生成ニューラルネットワークを提案する。
Choir Transformerのパフォーマンスは、以前の最先端の精度4.06%を上回っている。
実際に、生成されたメロディとリズムを所定の入力に応じて調整することができる。
論文 参考訳(メタデータ) (2023-08-01T06:44:15Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Music Harmony Generation, through Deep Learning and Using a
Multi-Objective Evolutionary Algorithm [0.0]
本稿では,ポリフォニック音楽生成のための遺伝的多目的進化最適化アルゴリズムを提案する。
ゴールの1つは音楽の規則と規則であり、他の2つのゴール、例えば音楽の専門家や普通のリスナーのスコアとともに、最も最適な反応を得るために進化のサイクルに適合する。
その結果,提案手法は,聞き手を引き寄せながら文法に従う調和音とともに,所望のスタイルや長さの難易度と快適さを生み出すことができることがわかった。
論文 参考訳(メタデータ) (2021-02-16T05:05:54Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Music Generation with Temporal Structure Augmentation [0.0]
提案手法は,歌の結末をカウントダウンしたコネクショニスト生成モデルと,余分な入力特徴としてメーターマーカーを付加する。
LSTMセルを持つRNNアーキテクチャは、教師付きシーケンス学習設定でノッティンガムフォークミュージックデータセットに基づいて訓練される。
実験では、両方のアノテーションの予測性能が改善された。
論文 参考訳(メタデータ) (2020-04-21T19:19:58Z) - Rhythm, Chord and Melody Generation for Lead Sheets using Recurrent
Neural Networks [5.57310999362848]
リードシート生成のための2段階LSTMモデルを提案し、まず曲のハーモニックなテンプレートとリズム的なテンプレートを生成し、次いで第2段階において、これらのテンプレートにメロディ音列を生成する。
主観的聴力テストは,我々のアプローチがベースラインを上回り,音楽的コヒーレンス感を高めることを示す。
論文 参考訳(メタデータ) (2020-02-21T09:36:24Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。