論文の概要: GTR-CTRL: Instrument and Genre Conditioning for Guitar-Focused Music
Generation with Transformers
- arxiv url: http://arxiv.org/abs/2302.05393v1
- Date: Fri, 10 Feb 2023 17:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 15:06:18.324353
- Title: GTR-CTRL: Instrument and Genre Conditioning for Guitar-Focused Music
Generation with Transformers
- Title(参考訳): GTR-CTRL:変圧器を用いたギター焦点音楽生成のための楽器とジェネリコンディショニング
- Authors: Pedro Sarmento, Adarsh Kumar, Yu-Hua Chen, CJ Carr, Zack Zukowski,
Mathieu Barthet
- Abstract要約: ギタータブ音楽生成にはDadaGPデータセット,GuitarProでは26万曲以上のコーパス,トークンフォーマットなどを用いています。
所望の楽器やジャンルに基づいてギタータブを生成するために,Transformer-XLディープラーニングモデルを条件付ける手法を提案する。
その結果、GTR-CTRL法は、無条件モデルよりもギター中心のシンボリック・ミュージック・ジェネレーションの柔軟性と制御性が高いことが示唆された。
- 参考スコア(独自算出の注目度): 14.025337055088102
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, symbolic music generation with deep learning techniques has
witnessed steady improvements. Most works on this topic focus on MIDI
representations, but less attention has been paid to symbolic music generation
using guitar tablatures (tabs) which can be used to encode multiple
instruments. Tabs include information on expressive techniques and fingerings
for fretted string instruments in addition to rhythm and pitch. In this work,
we use the DadaGP dataset for guitar tab music generation, a corpus of over 26k
songs in GuitarPro and token formats. We introduce methods to condition a
Transformer-XL deep learning model to generate guitar tabs (GTR-CTRL) based on
desired instrumentation (inst-CTRL) and genre (genre-CTRL). Special control
tokens are appended at the beginning of each song in the training corpus. We
assess the performance of the model with and without conditioning. We propose
instrument presence metrics to assess the inst-CTRL model's response to a given
instrumentation prompt. We trained a BERT model for downstream genre
classification and used it to assess the results obtained with the genre-CTRL
model. Statistical analyses evidence significant differences between the
conditioned and unconditioned models. Overall, results indicate that the
GTR-CTRL methods provide more flexibility and control for guitar-focused
symbolic music generation than an unconditioned model.
- Abstract(参考訳): 近年,深層学習技術を用いたシンボリック音楽生成が着実に改善されている。
このトピックに関するほとんどの研究はMIDI表現に焦点を当てているが、複数の楽器をエンコードできるギタータブー(tab)を使用してシンボリック音楽生成にはあまり注目されていない。
タブには、リズムやピッチに加えて、フレット弦楽器の表現技法や指先に関する情報が含まれている。
本研究では,guitar tab music生成のためのdadagpデータセットを用いて,guitarproとトークンフォーマットによる26k曲以上のコーパスを生成する。
本稿では,インスツルメンテーション (inst-ctrl) とジャンル (genre-ctrl) に基づくギタータブ (gtr-ctrl) を生成するために,transformer-xl深層学習モデルを条件付ける手法を提案する。
特別なコントロールトークンは、トレーニングコーパスに各曲の開始時に付加される。
条件付きおよび無条件でモデルの性能を評価する。
Inst-CTRLモデルに対して,所定のインスツルメンテーションプロンプトに対する応答を評価する尺度を提案する。
我々は、下流ジャンル分類のためのBERTモデルを訓練し、ジャンル-CTRLモデルを用いて得られた結果を評価する。
統計的分析は、条件付きモデルと条件なしモデルの間に顕著な違いを証明している。
その結果、GTR-CTRL法は、無条件モデルよりもギター中心のシンボリック・ミュージック・ジェネレーションの柔軟性と制御性が高いことが示唆された。
関連論文リスト
- TapToTab : Video-Based Guitar Tabs Generation using AI and Audio Analysis [0.0]
本稿では,ディープラーニング,特にリアルタイムフレットボード検出のためのYOLOモデルを活用した高度なアプローチを提案する。
実験の結果,従来の手法に比べて検出精度とロバスト性は著しく向上した。
本稿では,ビデオ録音からギタータブを自動生成することで,ギター指導に革命をもたらすことを目的とする。
論文 参考訳(メタデータ) (2024-09-13T08:17:15Z) - MIDI-to-Tab: Guitar Tablature Inference via Masked Language Modeling [6.150307957212576]
シンボリックギターのタブリング推定のための新しいディープラーニングソリューションを提案する。
我々は、文字列に音符を割り当てるために、マスク付き言語モデリングパラダイムでエンコーダ・デコーダ変換モデルを訓練する。
このモデルは、まず25K以上のタブチュアのデータセットであるDadaGPで事前トレーニングされ、その後、プロが書き起こしたギター演奏のキュレートセットで微調整される。
論文 参考訳(メタデータ) (2024-08-09T12:25:23Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific
Input Representation and Diffusion Outpainting [9.812666469580872]
楽器への入力表現をカスタマイズした音響ギター音響合成モデルを提案する。
本研究では,長期的整合性のある音声を生成する拡散型アウトペイントを用いて提案手法を実装した。
提案モデルはベースラインモデルよりも音質が高く,よりリアルな音色を生成する。
論文 参考訳(メタデータ) (2024-01-24T14:44:01Z) - Modeling Bends in Popular Music Guitar Tablatures [49.64902130083662]
タブラチュア表記はポピュラー音楽で広く使われ、ギター音楽のコンテンツの書き起こしや共有に使われている。
本論文は,音符のピッチを段階的にシフトできる屈曲に着目し,離散的な指板の物理的制限を回避する。
ポピュラー音楽の932個のリードギタータブラのコーパス上で実験を行い、決定木がF1スコア0.71と限られた偽陽性予測量で屈曲の発生をうまく予測することを示す。
論文 参考訳(メタデータ) (2023-08-22T07:50:58Z) - ProgGP: From GuitarPro Tablature Neural Generation To Progressive Metal
Production [0.0]
この作業は、173のプログレッシブメタル曲のカスタムデータセットであるProgGP上で、事前訓練されたトランスフォーマーモデルを微調整することで拡張する。
私たちのモデルは、複数のギター、ベースギター、ドラム、ピアノ、オーケストラのパーツを生成することができます。
そこで本研究では,プログレッシブ・メタル・ソングを制作するためのツールとして,人間のメタル・プロデューサによって完全生産・混合されたツールとして,モデルの価値を実証する。
論文 参考訳(メタデータ) (2023-07-11T15:19:47Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - DadaGP: A Dataset of Tokenized GuitarPro Songs for Sequence Models [25.15855175804765]
DadaGPは739のジャンルをカバーするGuitarProフォーマットの26,181曲からなる新しいシンボリック・ミュージック・データセットである。
DadaGPは、GuitarProファイルをトークンとバックに変換するエンコーダ/デコーダと共にリリースされた。
本稿では,DadaGPを用いてトランスフォーマーモデルを用いてGuitarProフォーマットで新しい曲を生成するユースケースについて述べる。
論文 参考訳(メタデータ) (2021-07-30T14:21:36Z) - Codified audio language modeling learns useful representations for music
information retrieval [77.63657430536593]
符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-12T18:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。