論文の概要: Using a Bi-directional LSTM Model with Attention Mechanism trained on
MIDI Data for Generating Unique Music
- arxiv url: http://arxiv.org/abs/2011.00773v1
- Date: Mon, 2 Nov 2020 06:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:18:12.879741
- Title: Using a Bi-directional LSTM Model with Attention Mechanism trained on
MIDI Data for Generating Unique Music
- Title(参考訳): midiデータに基づく注意機構を用いた双方向lstmモデルによる独特な楽曲生成
- Authors: Ashish Ranjan, Varun Nagesh Jolly Behera, Motahar Reza
- Abstract要約: 本稿では,MIDIデータに基づく類似音楽を生成するためのアテンション機構を備えた双方向LSTMモデルを提案する。
モデルが生成する音楽は、モデルがトレーニングする音楽のテーマ/スタイルに従う。
- 参考スコア(独自算出の注目度): 0.25559196081940677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating music is an interesting and challenging problem in the field of
machine learning. Mimicking human creativity has been popular in recent years,
especially in the field of computer vision and image processing. With the
advent of GANs, it is possible to generate new similar images, based on trained
data. But this cannot be done for music similarly, as music has an extra
temporal dimension. So it is necessary to understand how music is represented
in digital form. When building models that perform this generative task, the
learning and generation part is done in some high-level representation such as
MIDI (Musical Instrument Digital Interface) or scores. This paper proposes a
bi-directional LSTM (Long short-term memory) model with attention mechanism
capable of generating similar type of music based on MIDI data. The music
generated by the model follows the theme/style of the music the model is
trained on. Also, due to the nature of MIDI, the tempo, instrument, and other
parameters can be defined, and changed, post generation.
- Abstract(参考訳): 音楽の生成は、機械学習の分野で興味深い、そして難しい問題である。
人間の創造性を模倣することは近年、特にコンピュータビジョンと画像処理の分野で人気がある。
GANの出現により、トレーニングされたデータに基づいて、新しい類似した画像を生成することができる。
しかし、音楽には時間的余分な次元があるため、同様のことは音楽にはできない。
したがって、音楽がデジタル形式でどのように表現されるかを理解する必要がある。
この生成タスクを実行するモデルを構築する場合には、MIDI(Musical Instrument Digital Interface)やスコアなどのハイレベルな表現で学習と生成を行う。
そこで本稿では,MIDIデータに基づく類似音楽を生成するためのアテンション機構を備えた双方向LSTM(Long Short-term memory)モデルを提案する。
モデルが生成する音楽は、モデルがトレーニングする音楽のテーマ/スタイルに従う。
また、MIDIの性質から、テンポ、楽器、その他のパラメータを定義し、変更し、後生成することができる。
関連論文リスト
- Do Music Generation Models Encode Music Theory? [10.987131058422742]
テンポ、時間シグネチャ、音符、インターバル、スケール、コード、コード進行の概念からなる合成MIDIおよびオーディオ音楽理論のデータセットであるSynTheoryを紹介する。
次に,音楽基盤モデルにおけるこれらの音楽理論の概念を探索し,それらの概念が内部表現の中でいかに強くエンコードされているかを評価する枠組みを提案する。
以上の結果から,音楽理論の概念は基礎モデルにおいて識別可能であり,検出できる程度はモデルのサイズや層によって異なることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T17:06:30Z) - Expressive MIDI-format Piano Performance Generation [4.549093083765949]
この研究は、MIDIフォーマットで表現力のあるピアノ演奏を生成することができる生成型ニューラルネットワークを示す。
音楽の表現性は、鮮明なマイクロタイピング、豊かなポリフォニックテクスチャ、様々なダイナミクス、持続的なペダル効果によって反映される。
論文 参考訳(メタデータ) (2024-08-01T20:36:37Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Learning to Generate Music With Sentiment [1.8275108630751844]
本稿では,特定の感情で音楽を構成するための生成的深層学習モデルを提案する。
音楽生成の他に、シンボリック音楽の感情分析にも同じモデルを用いることができる。
論文 参考訳(メタデータ) (2021-03-09T03:16:52Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。